gpt4 book ai didi

python - 暂停和恢复自包含的 scrapy 脚本

转载 作者:行者123 更新时间:2023-11-28 16:20:42 26 4
gpt4 key购买 nike

我正在运行一个独立的 Scrapy 蜘蛛,它存在于单个 .py 文件中。如果服务器出现故障/停电/脚本可能失败的任何其他原因,是否有一种优雅的方法来确保我能够在恢复后继续运行?

也许类似于内置的 JOBDIR 设置?

最佳答案

如果你有一个独立的脚本,你仍然可以使用 JOBDIR 选项,例如您可以在 custom_settings 中设置一个值属性:

class MySpider(scrapy.Spider):
custom_settings = {
'JOBDIR': './job',
}
#...

或者,您可以在创建 CrawlerProcess 时设置此选项(如果这就是您用来在脚本中运行爬虫的方式):

process = CrawlerProcess({'JOBDIR': './job'})
process.crawl(MySpider)
process.start()

关于python - 暂停和恢复自包含的 scrapy 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40360785/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com