scrapy - 使用 Scrapy 增量爬取网站-6ren

scrapy - 使用 Scrapy 增量爬取网站

转载作者：行者123 更新时间：2023-12-01 14:35:25

我是爬行新手，想知道是否可以使用 Scrapy 逐步爬行网站，例如 CNBC.com？例如，如果今天我从一个站点抓取所有页面，那么从明天开始我只想收集新发布到该站点的页面，以避免抓取所有旧页面。

感谢您提供任何信息。或对此进行输入。

最佳答案

是的，您可以，而且实际上非常简单。每个新闻网站都有一些非常重要的索引页面，例如主页和类别(例如政治、娱乐等)。没有一篇文章不浏览这些页面至少几分钟。每分钟左右扫描一次这些页面并只保存链接。然后对数据库中已有的内容进行比较，每天几次进行爬网以抓取所有缺失的链接。非常标准的做法。

关于scrapy - 使用 Scrapy 增量爬取网站，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37286480/

文章推荐： Java在线程之间共享对象

php - 推荐一个 PHP 脚本来创建 XML 站点地图？ (爬/刮方法)
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章