gpt4 book ai didi

python - 如何基于Scrapy搭建一个永远运行的网络爬虫?

转载 作者:太空狗 更新时间:2023-10-29 18:04:13 26 4
gpt4 key购买 nike

我想建立一个基于Scrapy的网络爬虫,从多个新闻门户网站抓取新闻图片。我希望这个爬虫是:

  1. 永远奔跑

    表示它将定期重新访问一些门户页面以获取更新。

  2. 安排优先事项。

    为不同类型的 URL 赋予不同的优先级。

  3. 多线程抓取

我已经阅读了 Scrapy 文档,但没有找到与我列出的内容相关的内容(可能是我不够细心)。这里有人知道该怎么做吗?或者只是给出一些想法/例子。谢谢!

最佳答案

Scrapy 是一个用于抓取网站的框架,因此,它旨在支持您的标准,但它不会开箱即用;对于某些任务,您可能必须相对熟悉该模块。

  1. 永远运行取决于调用 Scrapy 的应用程序。你告诉the spiders去哪里,什么时候去。
  2. 优先考虑是 Scheduler middleware 的工作你必须创建并插入到 Scrapy 中。关于此的文档似乎参差不齐,我没有查看代码 - 原则上该功能就在那里。
  3. Scrapy 本质上是,fundamentally asynchronous这很可能是您想要的:请求 B 可以在请求 A 仍然未完成时得到满足。底层连接引擎不会阻止你善意多线程,但Scrapy不提供线程服务。

Scrapy 是一个库,而不是一个应用程序。模块的用户需要完成大量的工作(代码)。

关于python - 如何基于Scrapy搭建一个永远运行的网络爬虫?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2350049/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com