gpt4 book ai didi

scrapy - 使用 Scrapy 增量爬取网站

转载 作者:行者123 更新时间:2023-12-01 14:35:25 25 4
gpt4 key购买 nike

我是爬行新手,想知道是否可以使用 Scrapy 逐步爬行网站,例如 CNBC.com?例如,如果今天我从一个站点抓取所有页面,那么从明天开始我只想收集新发布到该站点的页面,以避免抓取所有旧页面。

感谢您提供任何信息。或对此进行输入。

最佳答案

是的,您可以,而且实际上非常简单。每个新闻网站都有一些非常重要的索引页面,例如主页和类别(例如政治、娱乐等)。没有一篇文章不浏览这些页面至少几分钟。每分钟左右扫描一次这些页面并只保存链接。然后对数据库中已有的内容进行比较,每天几次进行爬网以抓取所有缺失的链接。非常标准的做法。

关于scrapy - 使用 Scrapy 增量爬取网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37286480/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com