gpt4 book ai didi

python - Scrapy 如何避免重新下载最近下载的媒体?

转载 作者:太空宇宙 更新时间:2023-11-04 05:07:16 25 4
gpt4 key购买 nike

根据 https://doc.scrapy.org/en/latest/topics/media-pipeline.html ,Scrapy 的文件管道和图像管道“避免重新下载最近下载的媒体”。

我有一个蜘蛛,我正在使用 job directory 运行它(JOBDIR) 以暂停和恢复抓取。最初我是在不下载文件的情况下抓取项目;后来,我添加了一个文件管道。但是,在使用管道“真正”重新运行蜘蛛之前,我忘记删除 JOBDIR

我担心的是 JOBDIR 中的 requests.seen 文件将包含已被抓取但没有被抓取的项目的指纹文件(因为当它们被抓取时管道还没有到位)。我正在考虑做的是删除 JOBDIR 并重新开始从头开始抓取。

我的问题是:如果不重新下载所有文件,这项工作是否可行?或者 FilesPipeline 是否依赖于 JOBDIR 来跳过最近已经下载的文件? (顺便说一下,我的 FILES_SOURCE 是一个 S3 存储桶)。

最佳答案

Scrapy 计算文件名(通常是图片 url 中的 base64),如果文件存在于文件夹中,scrapy 不会尝试下载它。

关于python - Scrapy 如何避免重新下载最近下载的媒体?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44053443/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com