gpt4 book ai didi

python - 修改 Scrapy ImagesPipeline 上的缓存 header

转载 作者:太空宇宙 更新时间:2023-11-04 06:42:30 30 4
gpt4 key购买 nike

默认情况下,Scrapy 为使用 ImagesPipeline 保存的所有图像设置 2 天(172800 秒)Cache-Control header 。我想将该值更新为 2592000,即 30 天。

原始的 ImagesPipeline 看起来像这样:

class ImagesPipeline(FilesPipeline):
...
@classmethod
def from_settings(cls, settings):
...
s3store = cls.STORE_SCHEMES['s3']
...
...

In 继承自 FilesPipeline,它定义了 STORE_SCHEMES

class FilesPipeline(MediaPipeline):
...
STORE_SCHEMES = {
'': FSFilesStore,
'file': FSFilesStore,
's3': S3FilesStore,
}
...

S3FilesStore 看起来像这样:

class S3FilesStore(object):
...
POLICY = 'public-read'
HEADERS = {
'Cache-Control': 'max-age=172800',
}

我测试了只编辑原始 scrapy 类中的原始值并将其从 172800 更改为 2592000。这工作正常,当我测试它时,所有图像的缓存都变成 30 天。但显然这不是一个好的解决方案,我想用我的自定义类覆盖它。

因此,为了能够覆盖 S3FilesStore HEADERS = {},我必须创建一个自定义类,我称之为 CustomS3FilesStore覆盖该变量,然后创建一个将 CustomS3FilesStore 设置为 s3store 的自定义 ImagesPipeline。

我用下面的代码来做到这一点:

# Override the default headers and policies with a 30 days cache
class CustomS3FilesStore(S3FilesStore):
POLICY = 'public-read'
HEADERS = {
'Cache-Control': 'max-age=2592000',
}

# Set S3 scheme to our own override class CustomS3FilesStore
class CustomImagesPipeline(ImagesPipeline):

@classmethod
def from_settings(cls, settings):
cls.MIN_WIDTH = settings.getint('IMAGES_MIN_WIDTH', 0)
cls.MIN_HEIGHT = settings.getint('IMAGES_MIN_HEIGHT', 0)
cls.EXPIRES = settings.getint('IMAGES_EXPIRES', 90)
cls.THUMBS = settings.get('IMAGES_THUMBS', {})

# Override the default value to our CustomS3FilesStore Class
s3store = CustomS3FilesStore
s3store.AWS_ACCESS_KEY_ID = settings['AWS_ACCESS_KEY_ID']
s3store.AWS_SECRET_ACCESS_KEY = settings['AWS_SECRET_ACCESS_KEY']

cls.IMAGES_URLS_FIELD = settings.get('IMAGES_URLS_FIELD', cls.DEFAULT_IMAGES_URLS_FIELD)
cls.IMAGES_RESULT_FIELD = settings.get('IMAGES_RESULT_FIELD', cls.DEFAULT_IMAGES_RESULT_FIELD)
store_uri = settings['IMAGES_STORE']
return cls(store_uri)

然后我在 ITEM_PIPELINES 的 settings.py 文件中使用我的 CustomImagesPipeline,如下所示:

ITEM_PIPELINES = {
'condobot.pipelines.CustomImagesPipeline': 100,
...
}

结果:当我运行爬虫时,我遇到了 0 个错误,并且所有图像都已下载。但是图像的缓存 header 仍然只有 2 天,即 172800 秒。我没有成功覆盖设置。

知道我做错了什么吗?我如何实际更改 Scrapy 图像的缓存控制?

最佳答案

问题是您并没有真正覆盖 S3FilesStore 的默认值。

*FilesStore 类在 STORE_SCHEMES 中注册属性——在 from_settings 中,它仅用于获取 AWS key 。

尝试在构造函数中设置它,如下所示:

class CustomImagesPipeline(ImagesPipeline):

def __init__(self, *args, **kwargs):
super(CustomImagesPipeline, self).__init__(*args, **kwargs)
self.STORE_SCHEMES['s3'] = CustomS3FilesStore

...

关于python - 修改 Scrapy ImagesPipeline 上的缓存 header ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30106160/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com