gpt4 book ai didi

python - 如何构建可以从任何站点提取特定信息的网络爬虫?

转载 作者:太空狗 更新时间:2023-10-30 02:23:08 24 4
gpt4 key购买 nike

所以我正在尝试构建一个网络爬虫,我可以打开任何评论网站并让它相当可靠地从文本中抓取用户评论。也就是说,我不想为 Amazon 和 Overstocked 构建一个抓取工具,我只想要一个可以从两者中抓取产品评论的抓取工具,即使要牺牲准确性。我与我的一位教授进行了简短的交谈,他提到我基本上可以实现一些启发式方法并从中收集数据(作为一个基本示例,只需获取 p 标签中的所有文本)。目前,我真的只是在寻找一些关于前进方向的建议。

(如果重要的话,目前我正在使用 mechanize 和 lxml (Python) 来抓取各个站点。)

谢谢!

最佳答案

这个问题并没有真正的“答案”,但为了遇到这个问题的任何人的利益:

“通用”爬虫的概念充其量只是一个有趣的学术练习。它不太可能以任何有用的方式实现。

两个有用的项目是 Scrapy ,一个 python 网络抓取框架和 http://www.nltk.org/ , Natural Language Toolkit ,大量与自然语言文本处理相关的 python 模块。

关于python - 如何构建可以从任何站点提取特定信息的网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6142475/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com