gpt4 book ai didi

python/scrapy 问题 : How to avoid endless loops

转载 作者:行者123 更新时间:2023-11-28 19:58:56 25 4
gpt4 key购买 nike

我正在使用网络抓取框架 scrapy 来挖掘一些网站的数据。我正在尝试使用 CrawlSpider,并且页面有一个“后退”和“下一步”按钮。 URL 的格式为

www.qwerty.com/###

其中 ### 是一个数字,每次按下下一个按钮时都会递增。如何格式化规则,以免出现无限循环。

这是我的规则:

rules = (
Rule(SgmlLinkExtractor(allow='http://not-a-real-site.com/trunk-framework/791'),follow=True,callback='parse_item',
),
)

最佳答案

死循环不应该发生。 Scrapy 会过滤掉重复的 url。

关于python/scrapy 问题 : How to avoid endless loops,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6684129/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com