gpt4 book ai didi

python - Scrapy 中 requests.seen 文件中存储的值是什么?

转载 作者:太空宇宙 更新时间:2023-11-04 06:08:29 24 4
gpt4 key购买 nike

我的 requests.seen 文件中的一些示例值是

f4e2f84g6g987t69896gg83552ccb8c36bdff296

ccb8c36bdff29651d3080c9644b117364de75cd7

9ec11d5f1a4cda70af990ad40843615a5f1a4cda

我知道它们代表了我所抓取的 URL。如何将这些值转换为 URLS?或者更好的是,我如何将 URL 转换为等效的表示形式并检查它是否存在于 requests.seen 文件中?

最佳答案

见请求指纹功能 https://github.com/scrapy/scrapy/blob/master/scrapy/utils/request.py

The request fingerprint is a hash that uniquely identifies the resource the request points to

使用示例 redis dupefilter :

def request_seen(self, request):
fp = request_fingerprint(request)
added = self.server.sadd(self.key, fp)
return not added

关于python - Scrapy 中 requests.seen 文件中存储的值是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20414711/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com