gpt4 book ai didi

html-parsing - Scrapy - 如何每天抓取新页面

转载 作者:行者123 更新时间:2023-12-04 04:43:45 27 4
gpt4 key购买 nike

我正在评估 scrapy 是否适合我。我想要的只是每天抓取几个体育新闻网站以获取最新的头条新闻,并提取标题、日期和文章正文。我不关心文章正文中的链接,我只想要正文。

据我了解,抓取是一次性的工作,它会根据找到的链接抓取整个网站。我不想锤网站,我也不想爬整个网站;只有体育版 block ,只有头条新闻。

所以总而言之我想要scrapy到

  1. 每天查找与昨天不同的新闻文章来自指定域
  2. 提取新文章的日期、时间和正文
  3. 将结果保存到数据库中

是否有可能做到这一点,如果可以,我将如何做到这一点。我已经阅读了教程,但似乎他们描述的过程会将整个站点作为一次性工作进行搜索。

最佳答案

看看deltafetch中间件,它是 scrapy library of addons 的一部分发表者 scrapinghub .它将生成项目的页面的 url 存储在磁盘上,并且不会再次访问它们。它仍然允许scrapy 访问其他页面(通常需要它来查找项目页面)。这是一个非常简单的示例,可以根据您的特定需求进行定制。

您需要在启用此中间件的情况下每天运行爬网(例如,使用 cron)。

关于html-parsing - Scrapy - 如何每天抓取新页面,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13245910/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com