gpt4 book ai didi

html - 从 url 收集有关公司的一组描述性标签的最佳方法?

转载 作者:可可西里 更新时间:2023-11-01 14:56:51 26 4
gpt4 key购买 nike

我对网站的 html/javascript 中出现的内容一无所知,因为我大部分时间都花在后端(措辞!)。基本上,我想知道获取公司网址的最佳方式,例如PETA ,并从该 url 从他们的首页 html 中解析出关于公司的描述性词语。通过这种方式,您可以仅使用公司网址列表来快速启动自动标记分类网站。

如果这是合理的,我们将非常欢迎任何有关查找/挖掘内容的工具/流程的建议。

如果没有,或者您有更好的想法来获取标签,也请公开!

最佳答案

Mike Swift 说得太对了——如果您只寻找分类,那么您需要做的就是解析出 DMOZ。分类。无论如何,亚马逊服务使用 DMOZ 来获取类别,而且它是免费的(与 AWIS 不同)。比如解析出this获取 PETA 类别的链接。

如果您正在寻找解析工具,我非常喜欢 Nokogiri ,但任何网络解析工具,如 BeautifulSoup作品。我会用类似的东西解析它:

Nokogiri::HTML(open('<site>'))
doc.css('ol.dir li a').map {|item| [item.content]}

希望对您有所帮助!

关于html - 从 url 收集有关公司的一组描述性标签的最佳方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6500450/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com