gpt4 book ai didi

scrapy - 最好的Web图形搜寻器以提高速度?

转载 作者:行者123 更新时间:2023-12-04 18:15:59 30 4
gpt4 key购买 nike

在过去的一个月中,我一直在使用Scrapy进行网络爬虫项目。

该项目涉及从主页访问可访问的单个域名中的所有网页的全部文档内容。使用Scrapy编写此代码非常容易,但是运行太慢。在2-3天内,我只能拉下100,000页。

我已经意识到,我最初的想法不是Scrapy旨在用于这种爬网,而是在揭示自己。

我已开始将目光集中在Nutch和Methabot上,以期获得更好的性能。在爬网期间,我唯一需要存储的数据是网页的全部内容,最好是页面上的所有链接(但即使是在后期处理中也可以完成)。

我正在寻找一种速度快并且采用许多并行请求的爬虫。

最佳答案

这是服务器的错误而不是Scrapy。服务器可能没有您想要的那么快,或者它(或网站管理员)检测到爬网并限制了此连接/cookie的速度。
您是否使用代理?这也可能减慢爬网速度。
这可能是Scrapy的智慧,如果您进行的爬网过于密集,则可能会禁止使用此服务器。对于我的C++ handwritten crawler,我人为地设置了每秒1个请求的限制。但是此速度足以支持1个线程(1个请求* 60秒* 60分钟* 24小时= 86400请求/天)。如果您有兴趣,可以给whalebot.helmsman {AT} gmail.com写电子邮件。

关于scrapy - 最好的Web图形搜寻器以提高速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3424027/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com