gpt4 book ai didi

python - 通过计算 start_url 调用来估计 Scrapy 进度

转载 作者:行者123 更新时间:2023-12-01 04:52:01 28 4
gpt4 key购买 nike

我试图通过计算 start_url 被调用的次数来估计蜘蛛的进度,但我不确定如何检测到这一点。

我意识到这远不能真正衡量当前的进度,因为蜘蛛不知道剩余的要爬行的网站有多大。

关于如何获取 start_urls 的执行计数有什么想法吗?

最佳答案

看来您可以通过使用信号来完成此任务。具体来说,item_scraped 信号允许您在抓取项目后注册事件。对于每个收到的响应,检查response.url 是否在start_url 列表中。

scrapy.signals.item_scraped(item, response, spider)

有关 scrapy 文档页面的更多信息:http://doc.scrapy.org/en/latest/topics/signals.html

关于python - 通过计算 start_url 调用来估计 Scrapy 进度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28222356/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com