gpt4 book ai didi

python - 动态 DEPTH_LIMIT 作为 Scrapy 中的参数,从 Scrapyd 传递

转载 作者:行者123 更新时间:2023-12-01 01:44:55 31 4
gpt4 key购买 nike

我目前正在使用 Scrapyd 启动爬行蜘蛛和 DEPTH_LIMIT设置在 Scrapy 应用程序设置中进行设置。

我想知道如何在 Scrapyd 中将 深度限制 作为参数传递,从而允许我根据用户的请求为每次不同的抓取“动态”设置它。

我相信我只能对Scrapy的蜘蛛和管道进行操作。

编辑
感谢@John Smith的回复,我发现可以将设置传递给scrapyd的schedule方法

settings = {
'unique_id': unique_id, # unique ID for database instance
'USER_AGENT': 'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
'DEPTH_LIMIT': 1
}

# Schedule a new crawling task from scrapyd
task_id = scrapyd.schedule('default', "spider-name", settings=settings, url=url, domain=domain)

最佳答案

除非我误解了您想要指定 DEPTH_LIMIT 的具体时间和地点,否则您可以通过 scrapyd API 调用传递任何 scrapy 设置覆盖,如下所示:

curl http://localhost:6800/schedule.json -d project=myproject -dSpider=somespider -dsetting=DEPTH_LIMIT=5

http://scrapyd.readthedocs.io/en/stable/api.html#schedule-json

关于python - 动态 DEPTH_LIMIT 作为 Scrapy 中的参数,从 Scrapyd 传递,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51480760/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com