gpt4 book ai didi

Python Scrapy - 如何在抓取过程中重置连接?

转载 作者:太空宇宙 更新时间:2023-11-03 14:08:02 25 4
gpt4 key购买 nike

我正在 python 3 上使用 scrapy,并且我正在抓取的网站不允许通过其 robots.txt 文件上的蜘蛛登录。此外,在一定数量的请求(32)之后,他们开始阻止我想要访问的数据,要求登录。

我需要爬行几千个页面,所以我想知道 scrappy 中是否有一种方法可以在爬行一定数量的页面后停止爬行,断开连接,等待几秒钟并重新连接。如果不是,那么处理我目前情况的最佳方法是什么?

最佳答案

关于避免 robots.txt - 从技术上讲,您可以设置

ROBOTSTXT_OBEY = False

在Settings.py中。但是,不确定这在法律上是否是一个好的选择。

关于抓取的间隔 - 如果您可以分享一段代码,那么它将很有帮助。另外,如果您使用任何循环,那么将会有一个选项。

爬网程序是后端进程,也是一种废弃类型,因此经验法则之一是尊重爬网程序所在的网站。有时它也会影响网站的性能。您应该检查此链接以获取更多详细信息 - https://www.scrapehero.com/how-to-prevent-getting-blacklisted-while-scraping/

关于Python Scrapy - 如何在抓取过程中重置连接?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48717036/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com