gpt4 book ai didi

python - 设置 DOWNLOAD_DELAY 时 scrapy CONCURRENT_REQUESTS 被忽略?

转载 作者:行者123 更新时间:2023-12-01 03:56:00 25 4
gpt4 key购买 nike

查看 scrapy 统计数据(爬行 X 页(以 X 页/分钟))在我看来,一旦,例如:

DOWNLOAD_DELAY = 4.5

设置后,无论 CONCURRENT_REQUESTS 设置是什么,请求都会变得连续。

根据我的理解,延迟不应该计入每个并发请求,还是我误解了 scrapy 架构?所以在我的例子中不应该:

scrapy crawl us_al -a cid_range=000001..000020

在处理 10 个并发请求时运行速度更快,而不是在大约 1 分 50 秒内运行(请记住RANDOMIZE_DOWNLOAD_DELAY),这对我来说是吗?我该如何改变这种行为?当没有 DOWNLOAD_DELAY 时,使用 CONCURRENT_REQUESTS = 5 查询 20 个项目需要 4 秒,CONCURRENT_REQUESTS = 1 需要 10 秒,这种行为对我来说更有意义。

这是蜘蛛的样子:

import random
import re
import scrapy

class UsAlSpider(scrapy.Spider):
name = "us_al"
allowed_domains = ["arc-sos.state.al.us"]
start_urls = []
custom_settings = {
'CONCURRENT_REQUESTS': 10,
'CONCURRENT_REQUESTS_PER_DOMAIN': 10,
'DOWNLOAD_DELAY': 4.5
}

def __init__(self, cid_range=None, *args, **kwargs):
"""
Range (in the form: 000001..000010)
"""
super(UsAlSpider, self).__init__(*args, **kwargs)

self.cid_range = cid_range

def start_requests(self):
if self.cid_range and not re.search(r'^\d+\.\.\d+$', self.cid_range):
self.logger.error('Check input parameter cid_range={} needs to be in form cid_range=000001..000010'.format(self.cid_range))
return
# crawl according to input option
id_range = self.cid_range.split('..')
shuffled_ids = ["{0:06}".format(i) for i in xrange(
int(id_range[0]), int(id_range[1]) + 1)]
random.shuffle(shuffled_ids)
for id_ in shuffled_ids:
yield self.make_requests_from_url('http://arc-sos.state.al.us/cgi/corpdetail.mbr/detail?corp={}'.format(id_))

def parse(self, response):
# parse the page info

最佳答案

CONCURRENT_REQUESTS只是一般情况下保留请求的一种方法,因此如果您使用任何其他设置(通常由域强制执行),设置 CONCURRENT_REQUESTS 没有问题达到一个很高的数字。

DOWNLOAD_DELAY由域使用,这是正确的,因为其背后的想法是不要对特定网站进行重击。这也会影响 CONCURRENT_REQUESTS_PER_DOMAIN ,就好像 DOWNLOAD_DELAY>0 -> CONCURRENT_REQUESTS_PER_DOMAIN=1 .

关于python - 设置 DOWNLOAD_DELAY 时 scrapy CONCURRENT_REQUESTS 被忽略?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37461327/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com