gpt4 book ai didi

python - 如何为scrapy编写添加访问过的url的规则

转载 作者:行者123 更新时间:2023-11-28 16:46:07 25 4
gpt4 key购买 nike

当 scrapy 关闭时,它会忘记所有的 url。我想在开始时给 scrapy 一组已被抓取的 url。如何向 crawlspider 添加规则,让它知道访问了哪些 url?

当前函数:

SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)

只需使用 parse 告诉 spider 要抓取哪个 url。我怎么能告诉 scrapy 哪些 url 不应该访问?

最佳答案

当 scrapy 停止时,它会将抓取的 URLS 指纹保存在 request.seen 文件中。这是由用于两次抓取 url 的 dedup 类完成的,但是如果你重新启动具有相同作业目录的抓取器,它将不会抓取已经看到的 url。如果你想控制这个过程,你可以自己替换默认的 dedup 类。另一种解决方案是添加您自己的 spidermiddleware

关于python - 如何为scrapy编写添加访问过的url的规则,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13597232/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com