gpt4 book ai didi

web-crawler - 哪个网络爬虫用于从大约一千个网站中提取和解析数据

转载 作者:行者123 更新时间:2023-12-05 00:42:55 24 4
gpt4 key购买 nike

我正在尝试抓取大约一千个网站,其中我只对 html 内容感兴趣。

然后我将 HTML 转换为 XML 以使用 Xpath 进行解析以提取我感兴趣的特定内容。

我已经使用 Heritrix 2.0 爬虫几个月了,但我遇到了巨大的性能、内存和稳定性问题(Heritrix 几乎每天都崩溃,并且没有尝试使用 JVM 参数来限制内存使用成功)。

根据您在该领域的经验,您会使用哪种爬虫从一千个来源中提取和解析内容?

最佳答案

我建议使用 Python 编写自己的 Scrapy或者 lxmlBeautifulSoup包。你应该在谷歌中找到一些很好的教程。我在工作中使用 Scrapy+lxml 来抓取大约 600 个网站,检查损坏的链接。

关于web-crawler - 哪个网络爬虫用于从大约一千个网站中提取和解析数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1653749/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com