gpt4 book ai didi

python - 如何从 python 脚本运行并保存 scrapy 状态

转载 作者:行者123 更新时间:2023-12-01 09:28:32 25 4
gpt4 key购买 nike

在scrapy项目中,我们可以通过JOBDIR设置定义作业目录来获得持久化支持,例如:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

但是,当使用 python 脚本中的 scrapy.crawler.CrawlerProcess 运行蜘蛛时,如何执行相同的操作,如 How to run Scrapy from within a Python script 中的回答?

最佳答案

正如您的引用问题指出的那样,您可以将设置传递给 CrawlerProcess 实例。

因此您需要做的就是通过 JOBDIR 设置:

import scrapy
from scrapy.crawler import CrawlerProcess

class MySpider(scrapy.Spider):
# Your spider definition
...

process = CrawlerProcess({
'JOBDIR': 'crawls/somespider-1' # <----- Here
})

process.crawl(MySpider)
process.start()

关于python - 如何从 python 脚本运行并保存 scrapy 状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50148061/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com