gpt4 book ai didi

python - 什么是好的爬行速度?

转载 作者:太空狗 更新时间:2023-10-30 02:37:41 26 4
gpt4 key购买 nike

我正在抓取网页以创建一个搜索引擎,并且使用 Scrapy 能够在 1 小时内抓取近 9300 个页面。我想知道我还能提高多少,什么值被认为是“良好”的爬行速度。

最佳答案

简短回答:没有真正推荐的创建搜索引擎的速度。

长答案:

一般来说,抓取速度并不能真正决定您的抓取工具是好是坏,甚至它是否可以作为搜索引擎的程序运行。

在谈论在多个站点上抓取大量页面时,您也不能谈论抓取速度。爬行速度应仅按站点确定,这意味着爬虫应该可以配置为可以更改它在任何特定时间访问站点的频率,you can see that Google also offers this .

如果我们谈论的是您提到的当前速率(9300/小时),则意味着您每秒收集约 2.5 页,我认为这还不错,但如前所述,它无助于确定您的最终目标(创建搜索引擎)。

另外,如果你真的决定用 Scrapy 实现一个广泛的爬虫来创建一个搜索引擎,你永远不会只用 Scrapy 发送 1 个进程。您需要设置数以千计(甚至更多)的蜘蛛程序运行以检查以获取所需的更多信息。此外,您还必须设置不同的服务来帮助您维护这些蜘蛛以及它们在进程之间的行为方式。对于初学者,我建议检查 FronteraScrapyd .

关于python - 什么是好的爬行速度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49494093/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com