python-2.7 - 在每个域上以高并发和低请求率执行 Scrapy 广泛抓取。-6ren

python-2.7 - 在每个域上以高并发和低请求率执行 Scrapy 广泛抓取。

转载作者：行者123 更新时间：2023-12-02 01:25:25

27

4

我正在尝试进行 Scrapy 广泛的爬行。目标是在不同的域进行许多并发爬网，但同时在每个域上轻轻爬行。因此能够保持良好的爬行速度并保持每个 url 上的请求频率较低。

这是我使用的蜘蛛:

import re
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from myproject.items import MyprojectItem

class testSpider(CrawlSpider):
    name = "testCrawler16"
    start_urls = [
              "http://example.com",
    ]

    extractor = SgmlLinkExtractor(deny=('.com','.nl','.org'),
                              allow=('.se'))

    rules = (
        Rule(extractor,callback='parse_links',follow=True),
        )

    def parse_links(self, response):
        item = MyprojectItem()
        item['url'] =response.url
        item['depth'] = response.meta['depth']
        yield item

这是我使用的设置:

BOT_NAME = 'myproject'

SPIDER_MODULES = ['myproject.spiders']
NEWSPIDER_MODULE = 'myproject.spiders'

REACTOR_THREADPOOL_MAXSIZE = 20
RETRY_ENABLED = False
REDIRECT_ENABLED = False
DOWNLOAD_TIMEOUT = 15
LOG_LEVEL = 'INFO'
COOKIES_ENABLED = False
DEPTH_LIMIT = 10


AUTOTHROTTLE_ENABLED = True
CONCURRENT_REQUESTS = 10
CONCURRENT_REQUESTS_PER_DOMAIN = 1
AUTOTHROTTLE_TARGET_CONCURRENCY = 1
AUTOTHROTTLE_START_DELAY = 5
AUTOTHROTTLE_MAX_DELAY = 60

问题是，一段时间后，爬虫同时爬行的次数越来越少，并且只会在几个域之间交替，有时只有一个。因此自动 throttle 会减慢爬行速度。我怎样才能让蜘蛛保持并发并与许多域有许多单独的连接，并使用并发来保持速度，同时保持每个域的低请求率？

最佳答案

AUTOTHROTTLE_ENABLED不推荐用于快速抓取，我建议将其设置为 False ，并且只是自己轻轻地爬行。

您在此处需要的唯一设置是 CONCURRENT_REQUESTS和 CONCURRENT_REQUESTS_PER_DOMAIN和 DOWNLOAD_DELAY .

套装DOWNLOAD_DELAY到您想要抓取每个域的每个请求的值，10例如，如果您想要每分钟 6 个请求(每 10 秒一个)。

套装CONCURRENT_REQUESTS_PER_DOMAIN为 1 表示尊重以前的 DOWNLOAD_DELAY每个域的间隔。

套装CONCURRENT_REQUESTS设置为高值，它可能是您计划抓取的域数量(或更多)。这只是为了不干扰以前的设置。

关于python-2.7 - 在每个域上以高并发和低请求率执行 Scrapy 广泛抓取。，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37380588/

27

4

0

文章推荐： codenameone - 我如何在 Codenameone 中模拟 w3c Dom API

文章推荐： math - Maple 中的多项式回归

文章推荐： Angularjs:在 $http 拦截器中发出另一个 $http 请求

文章推荐： arrays - 在程序集中打印数组元素

delphi - 如何在我的应用程序中为新估算的项目设置值(value)率
我使用 QBFC v13 和 Delphi XE6。目标是从我的应用程序创建 Estimate 并将其参数设置到 QuickBooks 中。我从 QBFC13 导入类型库并将其添加到我的项目中。
android - 如何避免谷歌地图中的 QUERY_LIMIT 率
我有一个数据库，其中有很多格式不正确的地址。在这个地址中，我只有一个街道地址或带有城市名称的街道。在我的应用程序中，用户选择一些类别，然后我想在 map 上显示例如 50,100,300 等地址。(不
unit-testing - 降低大型软件开发项目中的缺陷注入(inject)率
在大多数软件项目中，缺陷源自需求、设计、编码和缺陷更正。根据我的经验，大多数缺陷都源于编码阶段。我有兴趣了解软件开发人员使用哪些实用方法来降低缺陷注入(inject)率。我已经看到以下方法的使用取
Instagram 实时 API POST 率
我正在使用实时 API 中的标签订阅构建一个应用程序，并且有一个与容量规划相关的问题。我们可能有大量用户同时发布到订阅的主题标签，因此问题是 API 实际发布到我们的订阅处理端点的频率是多少？例如，如
SQL 率(百分比)计算 - 除以零错误
尝试使用 NULLIF 或 IFNULL 函数，但仍收到被零除的消息。 SELECT client_id ,COUNT(distinct CASE WHEN status = 'failed' THE
Django Rest Framework 对缓存请求的 throttle 率
我目前正在开发一个使用 Django-rest-framework 制作的 API。我必须根据每个用户组设置限制率。我们目前使用默认配置的 memcached 作为缓存后端，即按站点缓存。在使用
tensorflow - 在 tensorflow 训练期间改变 Dropout 率 - 可能吗？
我认为有时在神经网络(特别是一般对抗网络)训练期间改变丢失率可能是一个好主意，从高丢失率开始，然后线性地将丢失率降低到零。您认为这有意义吗？如果是的话，是否有可能在 tensorflow 中实现这一点
windows - 什么是 named.exe 进程以及如何避免消耗高 CPU 率
我有一个 Windows Server 2008，Plesk 运行着两个网站。有时服务器运行缓慢，并且有一个 named.exe 进程使 CPU 峰值达到 100%。它持续很短的时间，过一会儿它又来了
machine-learning - 降低 FP 率 scikit-learn 随机森林
我正在使用 scikit-learn 随机森林分类器，我想通过将成功投票所需的树数量从大于 50% 增加到 75% 来降低 FP 率，在阅读文档后我不这样做确定如何做到这一点。有没有人有什么建议。 (
javascript - 为什么 JavaScript 的 setTimeout 不减慢 keydown 率？
当我连续按下按键事件(字母 k)时，为什么以下按键事件不会减慢 3000 密耳？如果我按住手指，计数会迅速增加，因为 mcount 上没有 setTimeout。这是为什么？每次计数之间应该有延迟，但

首页

博学

6Ren·AI

商城

python-2.7 - 在每个域上以高并发和低请求率执行 Scrapy 广泛抓取。