python - time.sleep() 函数在 Scrapy 递归网络抓取器中不起作用-6ren

python - time.sleep() 函数在 Scrapy 递归网络抓取器中不起作用

转载作者：行者123 更新时间：2023-12-01 05:06:53

24

4

我在 Windows Vista 64 位上使用 Python.org 版本 2.7 64 位。我正在查看的网站上有一些递归网络抓取代码被反抓取措施捕获:

from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import Selector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.cmdline import execute
from scrapy.utils.markup import remove_tags
import time


class ExampleSpider(CrawlSpider):
    name = "goal3"
    allowed_domains = ["whoscored.com"]
    start_urls = ["http://www.whoscored.com/"]
    rules = [Rule(SgmlLinkExtractor(allow=()), 
                  follow=True),
             Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
    ]
    def parse_item(self,response):
        self.log('A response from %s just arrived!' % response.url)
        scripts = response.selector.xpath("normalize-space(//title)")
        for scripts in scripts:
            body = response.xpath('//p').extract()
            body2 = "".join(body)
            print remove_tags(body2).encode('utf-8')  
            time.sleep(5)

execute(['scrapy','crawl','goal3'])

为了阻止这种情况发生，我尝试添加一个基本的“time.sleep()”函数来减慢提交的速度。但是，当通过命令提示符运行代码时，此功能似乎没有任何效果。代码继续以相同的速度运行，因此所有请求都以 HTTP 403 的形式返回。

有人能明白为什么这可能不起作用吗？

谢谢

最佳答案

不要重新发明轮子。 DOWNLOAD_DELAY设置就是您正在寻找的内容:

The amount of time (in secs) that the downloader should wait before downloading consecutive pages from the same website. This can be used to throttle the crawling speed to avoid hitting servers too hard.

还有其他技术，例如轮换用户代理、IP 地址，请参阅 Avoid Getting Banned 了解更多信息部分。

此外，请确保您了解该网站的使用条款。确保他们没有声明禁止网络爬行以及网站是否提供 API。

关于python - time.sleep() 函数在 Scrapy 递归网络抓取器中不起作用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24831322/

24

4

0

文章推荐： jquery - jquery中的动态云标签

文章推荐： java - eclipse 和文本编辑器结果不同

文章推荐：当子div高度改变时Jquery自动展开父div

c - sleep 函数是让所有线程都 sleep 还是只让调用它的线程 sleep ？
我在 linux (Centos) 上使用 pthread 编程？我想让线程休眠一小段时间以等待某些事情。我正在尝试使用 sleep()、nanosleep() 或 usleep() 或其他可以做到这
java - 唤醒 sleep 线程 - interrupt() 与 "splitting" sleep 进入多个 sleep
此要求出现在我的 Android 应用程序中，但它通常适用于 Java。我的应用程序每隔几秒钟“做某事”。我已经按如下方式实现了这一点(只是相关的 fragment - 不是完整的代码): fragm
sleep - 如何在不连续重置的情况下将esp8266从深度 sleep 中唤醒
我正在使用 esp8266 构建 IR 到 WiFi 桥接器。基本上，我正在构建一个连接到红外 Remote 内的 esp8266 的红外接收器，以通过 wifi 将接收到的红外远程按键转发到服务器。
Android让Toast先于Thread.sleep//Systemclock.sleep
我想让 Toast 出现，然后让 sleep 运行。如果我这样做，Toast 会在 sleep 后出现，但我希望反过来。有人有建议吗？这是我的代码 switch (checkedRadioButto
java - 为什么 Thread.sleep() 或 TimeUnit.SECONDS.sleep() 延迟执行先前的语句而不是从调用 sleep() 的地方暂停
我在做一件简单的事情，打印一条错误消息，延迟执行 5 秒，然后调用另一个函数，这是代码 public void saveAndDisplay() throws InterruptedException
Java sleep 命令忽略 sleep 之前的命令
我的 Activity 上有一个按钮，当我单击它时，我希望按钮改变颜色，等待一段时间，然后再次改变颜色。我尝试过以下两个版本的 sleep : 尝试1: public void buClick(Vi
java - Thread.sleep sleep 时间少于指定的时间？
我尝试过这个: for(int i =0; i1。创建ScheduledExecutorService public static ScheduledExecutorService createSch
c# - Thread.Sleep() sleep 时间更长
我有一个 Winform，需要等待大约 3 - 4 小时。我无法关闭并以某种方式重新打开应用程序，因为它在等待时在后台做的事情很少。为了实现等待 - 不给 UI 线程造成麻烦和其他原因 - 我有一个
c - 为什么我的所有线程都使用 sleep() 进行 sleep ？
我在网上看到了下面一段关于 Linux 线程的代码。但是当我运行它时，所有线程似乎都在 sleep ，而不仅仅是主线程。为什么？另外，如果没有 sleep(5)，“线程创建成功”语句会运行 3 次而不
php sleep 与 bash sleep
我有一个 php 脚本，我需要每 5 秒运行一次(运行，等待它完成，等待 5 秒，再次运行) 我有两种方法。要么在脚本中有一个带有 sleep 功能的无限循环，看起来像这样: while (1) {
Java sleep() 在实际 sleep 命令之前停止执行代码
我有一个图形用户界面，我想显示一些文本，然后稍等一下。我的代码看起来像这样: //do something (add JTextArea, revalidate, repaint) try{
android - sleep 模式和深度 sleep 模式有什么区别？
我想知道安卓手机的 sleep 模式和深度 sleep 模式有什么区别，手机进入休眠模式和深度 sleep 模式会有什么影响。请提供详细的答案。问候，皮克斯最佳答案深度 sleep 模式与休眠
c - sleep |函数 `sleep' 的警告隐式声明？
我正在学习 C。在这个节目中我使用 sleep 功能来减慢倒计时。我的教科书没有指定我应该包含的库来使用 sleep 功能。所以我使用它时没有为它包含任何特殊的库并且它可以工作。但它在代码块中给了我这
c - Sleep() 或 sleep() 有多准确
我正在尝试模拟按键按下和按键 Action 。例如:2638 毫秒。 SendMessage(hWnd, WM_KEYDOWN, keyCode, 0); Sleep(2638); SendMess
java - sleep 线程有时 sleep 时间超过所需时间
我在 while 循环中调用一个线程 hibernate 1 秒。当标志为真时，循环将运行(标志为真无限时间)。在循环线程内应该 hibernate 1 秒，唤醒并增加计数器，检查 IF 条件，在 F
perl - 当 sleep() 不能很好地处理警报时，我还能做什么 'sleep'？
有很多文件说“你应该避免使用带警报的 sleep ，因为许多系统使用警报来实现 sleep ”。实际上，我正在为这个问题而苦恼。那么，当 sleep() 不能很好地处理警报时，是否有人可以帮助我“
thread-sleep - Thread.sleep(换图)Java
我有两个带有图像的jlabel..我尝试在单击另一个标签时更改标签中的图像..(例如游戏)..我有一个问题..当我编写 Thread.sleep 时，图像没有改变..请参阅代码: public cla
java - 已 sleep 线程上的 Sleep() 方法
我正在研究多线程，我有一个关于线程 sleep 方法的问题。当我在已经处于 sleep 线程(时间 t2)中执行 sleep()(时间 t1)方法时。总 sleep 时间为 t1+t2 或 t2(如果
c - sleep 系统调用，默认 sleep 时间是多少？
如果我们不向 sleep( ) 函数传递任何参数，默认 sleep 时间是多少？ #include int main() { int pid,dip,cpid; pid = fork(
python - asyncio.sleep() 与 time.sleep()
当我转到 asyncio 页面时，第一个示例是一个 hello world 程序。当我在 python 3.73 上运行它时，我看不出与正常的有什么不同。谁能告诉我区别并举一个重要的例子？ In [

首页

博学

6Ren·AI

商城

python - time.sleep() 函数在 Scrapy 递归网络抓取器中不起作用