gpt4 book ai didi

python - 在存储的数据上重播 Scrapy 蜘蛛

转载 作者:太空狗 更新时间:2023-10-29 17:26:44 26 4
gpt4 key购买 nike

我已经开始使用 Scrapy抓取一些网站。如果我稍后向我的模型添加一个新字段或更改我的解析函数,我希望能够离线“重放”下载的原始数据以再次抓取它。看起来 Scrapy 有能力在某一时刻将原始数据存储在重放文件中:

http://dev.scrapy.org/browser/scrapy/trunk/scrapy/command/commands/replay.py?rev=168

但是这个功能在当前版本的Scrapy中好像已经被移除了。还有其他方法可以实现吗?

最佳答案

如果您运行 crawl --record=[cache.file] [scraper],您就可以使用 replay [scraper]

或者,您可以使用 HttpCacheMiddleware 缓存所有响应通过将其包含在 DOWNLOADER_MIDDLEWARES 中:

DOWNLOADER_MIDDLEWARES = {
'scrapy.contrib.downloadermiddleware.httpcache.HttpCacheMiddleware': 300,
}

如果这样做,每次运行爬虫时,它都会首先检查文件系统。

关于python - 在存储的数据上重播 Scrapy 蜘蛛,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7766414/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com