作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是爬行新手,想知道是否可以使用 Scrapy 逐步爬行网站,例如 CNBC.com?例如,如果今天我从一个站点抓取所有页面,那么从明天开始我只想收集新发布到该站点的页面,以避免抓取所有旧页面。
感谢您提供任何信息。或对此进行输入。
最佳答案
是的,您可以,而且实际上非常简单。每个新闻网站都有一些非常重要的索引页面,例如主页和类别(例如政治、娱乐等)。没有一篇文章不浏览这些页面至少几分钟。每分钟左右扫描一次这些页面并只保存链接。然后对数据库中已有的内容进行比较,每天几次进行爬网以抓取所有缺失的链接。非常标准的做法。
关于scrapy - 使用 Scrapy 增量爬取网站,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37286480/
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,
我是一名优秀的程序员,十分优秀!