gpt4 book ai didi

python - 允许使用 Scrapy Image Pipeline 进行重复下载吗?

转载 作者:行者123 更新时间:2023-12-02 03:51:53 24 4
gpt4 key购买 nike

请参阅下面我的代码的示例版本,它使用 Scrapy Image Pipeline 从网站下载/抓取图像:

import scrapy
from scrapy_splash import SplashRequest
from imageExtract.items import ImageextractItem

class ExtractSpider(scrapy.Spider):
name = 'extract'
start_urls = ['url']

def parse(self, response):
image = ImageextractItem()
titles = ['a', 'b', 'c', 'd', 'e', 'f']
rel = ['url1', 'url2', 'url3', 'url4', 'url5', 'url6']

image['title'] = titles
image['image_urls'] = rel
return image

一切正常,但根据默认设置,避免下载重复项。有什么方法可以覆盖这个以便我也可以下载重复项吗?谢谢。

最佳答案

感谢Tomáš的指导,最终我找到了下载重复图像的方法。

MediaPipeline 类的 _process_request 中,我注释了这些行。

# 如果请求已被看到,则返回缓存结果
# 如果 fp 在 info.downloaded 中:
# 返回 defer_result(info.downloaded[fp]).addCallbacks(cb, eb)

# 检查请求是否正在下载以避免重复下载
# 如果 fp 在 info.downloading 中:
# 返回一叠

会发生未捕获的 KeyError,但它似乎不会影响我的结果,因此我停止进一步挖掘。

关于python - 允许使用 Scrapy Image Pipeline 进行重复下载吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45177367/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com