python - Scrapy 如何避免重新下载最近下载的媒体？-6ren

python - Scrapy 如何避免重新下载最近下载的媒体？

转载作者：太空宇宙更新时间：2023-11-04 05:07:16

25

4

根据 https://doc.scrapy.org/en/latest/topics/media-pipeline.html ，Scrapy 的文件管道和图像管道“避免重新下载最近下载的媒体”。

我有一个蜘蛛，我正在使用 job directory 运行它(JOBDIR) 以暂停和恢复抓取。最初我是在不下载文件的情况下抓取项目；后来，我添加了一个文件管道。但是，在使用管道“真正”重新运行蜘蛛之前，我忘记删除 JOBDIR。

我担心的是 JOBDIR 中的 requests.seen 文件将包含已被抓取但没有被抓取的项目的指纹文件(因为当它们被抓取时管道还没有到位)。我正在考虑做的是删除 JOBDIR 并重新开始从头开始抓取。

我的问题是:如果不重新下载所有文件，这项工作是否可行？或者 FilesPipeline 是否依赖于 JOBDIR 来跳过最近已经下载的文件？ (顺便说一下，我的 FILES_SOURCE 是一个 S3 存储桶)。

最佳答案

Scrapy 计算文件名(通常是图片 url 中的 base64)，如果文件存在于文件夹中，scrapy 不会尝试下载它。

关于python - Scrapy 如何避免重新下载最近下载的媒体？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44053443/

25

4

0

文章推荐： asp.net - 为什么 CSS 类不能包含另一个 CSS 类

文章推荐： c - C中ToLower函数的实现

文章推荐： linux - 如何管理应用程序启动？

文章推荐： C编程，如何递归获取目录和子目录中的文件

html - 媒体=全部 vs 媒体=屏幕
似乎最近我看到越来越多的人开始在他们的样式表中使用 media="all" 而不是 media="screen"。我的问题是什么时候应该使用 media="all" 而不是 media="scree
instagram - 媒体 Instagram 端点不起作用 - 媒体 ID 无效
我正在尝试使用 https://www.instagram.com/developer/endpoints/media/ ，但对于我使用的每个媒体 ID，我总是得到相同的结果: { "meta
HTML/CSS @媒体
哟，我正在为服务器制作一个 MOTD 供最终用户阅读。但是，对于使用较小显示器的用户来说，它看起来非常压缩，例如，当分辨率为 1280x1040 时，它会被拉低。我不熟悉 CSS 中的 @media
CSS 媒体查询(@媒体)
我在我的 CSS 文件中使用了 @media screen 而不是 (-webkit-min-device-pixel-ratio:0)。我的问题是关于指定的值，即在这种情况下为“0”。值的变化将如何
机器人:媒体 Controller
我正在播放 Activity 中的视频，我需要显示/隐藏顶部栏 View 以及媒体 Controller 。所以当媒体 Controller 在屏幕上时，我的顶部 View 应该是可见的，当媒体 Co
小部件中的 Wordpress 媒体 uploader
我在我的 WordPress 主题中创建了一个小部件来显示图像。到目前为止，小部件可以工作，我可以输入值并在前端显示这些值。当我选择一个小部件并将其放入小部件区域时，媒体上传按钮不起作用。在 Wor
iphone - 标记内的MWFeedParser标记(媒体:缩略图)
我正在使用MWFeedParser从此处读取Youtube原子供稿:here xml代码: 我如何获取媒体的网址:缩略图？我试图更改MWFeedParser.m 由此: else if ([cu
Instagram API/媒体/搜索最大计数参数？
当使用 Python 向 Instagram API 发出 GET 请求时，传递所需的变量，如下所示 photos = api.media_search(lat=latitude, lng=longi
Android 媒体 Controller 在失去焦点时隐藏
我正在使用与媒体播放器关联的媒体 Controller 来播放声音。问题是媒体 Controller 一旦失去焦点就会隐藏起来。我有一个按钮，按下时会播放声音，媒体 Controller 会出现在屏幕
android - 媒体 Controller 隐藏但媒体播放器继续播放
我有一个媒体播放器并与它关联了一个媒体 Controller 。控件工作正常。我遇到了两个问题: 当媒体 Controller 获得焦点时，即用户触摸它然后触摸屏幕的另一部分时，媒体 Control
java - 媒体 Controller 不工作
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
对话框中的 Android 媒体 Controller
我在对话框中显示一个 VideoView 并向其附加一个媒体控件。但是当我尝试点击媒体控件(播放、搜索栏等)时，对话框会消失。媒体控制按钮不会被点击，而是将点击注册为 Dialog 的 Outsi
html - 打印时隐藏 HTML 媒体
我目前正在使用 HTML 编写可打印文档，它将显示从数据库中提取的数据。我的想法是我将使用 HTML/CSS 使文档看起来不错，但它将专门用于打印。文档的布局使用表格来控制数据库中数据的显示方式。
css - 媒体 ="print"外部链接不起作用
我需要在网络应用程序中打印我的报告。我有在我的代码中。但它不应用任何样式。另一方面，如果我使用在文档中编写 print.css 代码一切正常。怎么了？最佳答案也许你在主样式之前插入打印样式
jquery - css 媒体 - 屏幕宽度不一致
CSS html{ overflow-y:scroll; } js function showW(){ var a=($(window).width()); $('#
css - 媒体 ="all"CSS 是否会覆盖所有内容？
我编写了一个 Chrome 扩展程序，其中一个功能是您可以在您所在的页面中调出一个帮助面板，其中包含其使用指南。这个帮助面板是通过JS插入到页面中的，它的CSS都是通过$('#selector_for
linux - 模拟 WORM 媒体
我需要为 WORM 媒体开发归档软件。这种类型的媒体允许通常的访问操作:读取、写入，但文件一旦写入，就无法修改或删除。因为这样的媒体可能很昂贵，我想知道如何在开发阶段为测试创建一个假的 WORM
Android 媒体 Controller 短时间显示
下面的这个 Activity 工作正常，但 mediaController 仅在我单击屏幕时显示。第二个问题是媒体 Controller 只显示 3 秒。我应该怎么做才能消除这个问题？ public
android - 媒体 Controller 定位
我正在使用 VideoView 播放本地 mp4，我也在使用 MediaController。媒体控制栏未显示在我的视频剪辑下方，而是显示在屏幕中间。我使用 setAnchorView 将其附加到我的
android - 媒体 Controller 不工作
我的布局包含 videoView 还有java代码中的Medicontrolleri: final MediaController mediaCont

首页

博学

6Ren·AI

商城

python - Scrapy 如何避免重新下载最近下载的媒体？