python - 如何基于Scrapy搭建一个永远运行的网络爬虫？-6ren

python - 如何基于Scrapy搭建一个永远运行的网络爬虫？

转载作者：太空狗更新时间：2023-10-29 18:04:13

26

4

我想建立一个基于Scrapy的网络爬虫，从多个新闻门户网站抓取新闻图片。我希望这个爬虫是:

永远奔跑
表示它将定期重新访问一些门户页面以获取更新。
安排优先事项。
为不同类型的 URL 赋予不同的优先级。
多线程抓取

我已经阅读了 Scrapy 文档，但没有找到与我列出的内容相关的内容(可能是我不够细心)。这里有人知道该怎么做吗？或者只是给出一些想法/例子。谢谢!

最佳答案

Scrapy 是一个用于抓取网站的框架，因此，它旨在支持您的标准，但它不会开箱即用；对于某些任务，您可能必须相对熟悉该模块。

永远运行取决于调用 Scrapy 的应用程序。你告诉the spiders去哪里，什么时候去。
优先考虑是 Scheduler middleware 的工作你必须创建并插入到 Scrapy 中。关于此的文档似乎参差不齐，我没有查看代码 - 原则上该功能就在那里。
Scrapy 本质上是，fundamentally asynchronous这很可能是您想要的:请求 B 可以在请求 A 仍然未完成时得到满足。底层连接引擎不会阻止你善意多线程，但Scrapy不提供线程服务。

Scrapy 是一个库，而不是一个应用程序。模块的用户需要完成大量的工作(代码)。

关于python - 如何基于Scrapy搭建一个永远运行的网络爬虫？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2350049/

26

4

0

文章推荐： Python，循环的下一次迭代

文章推荐： c# - 面试题: Exception within Event Handler

文章推荐： python - 在 python 中使用负数

prolog - 永远-Prolog
有人可以解释预定义谓词forall如何在列表中找到最小值吗？最佳答案对于列表L，您可以使用: member(Min,L), forall(member(N,L), N>=Min). 但是，尽管这是
C++二进制搜索没有成功运行......永远
编辑:澄清一下，我正在搜索的对象数组确实已按搜索变量的字母数字顺序进行了预排序。我做了一个二分搜索函数并将它嵌套在另一个函数中。出于某种原因，每次我使用二进制搜索都无法找到相关的字符数组。基本上，
c++ - 让我的过程保持活力 - 永远
是否可以阻止用户(甚至是管理员)终止我的程序？或者万一被杀死，它会迅速恢复自身？更新:澄清一下:我正在编写一个监控程序，类似于家长控制，它记录用户对 PC 的操作。你可以通过查看我最近的其他问题来
ruby - For循环...永远
我有一个 for 循环，我希望它永远递增。我的代码: for a in (0...Float::INFINITY).step(2) puts a end 输出: 0.0 2.0 4.0 Et
clang - 建筑 clang 永远
我很困惑。我有一个运行Ubuntu 14.04的VM。我在这里遵循了以下程序:http://clang.llvm.org/docs/LibASTMatchersTutorial.html，现在正在运行
C++ 管道错误，pipe_wait 永远
这是我的代码 #include #include #include #include #include #include #include #include #include usi
postgresql - Postgres COPY FROM 永远
我有一个程序会或多或少地通过标准输入使用 COPY FROM 将大量数据复制到 Postgres 9 中。这目前工作正常，但我正在缓冲数据 block ，然后分批运行 COPY FROM 操作。我
node.js - 如何杀死重新启动的进程？ (永远)
我想我不小心在某个地方安装了 Foreverjs 并启动了它。每次我杀死这个进程时，另一个进程就会取代它的位置 ] 1 我不知道永远在哪里(或者这实际上是导致它的原因)，因为我在本地安装了它。最佳答
node.js - 永远:找不到命令
我得到了一个 forever: command not found 当我使用 forever 命令作为 cronjob 运行 nodejs 进程时出现错误(在亚马逊 ec2 机器中):我正在使用的 b
docker 状态 "Restating"永远
我创建了一些容器，它们还没有准备好使用，总是“重新启动”状态: docker ps CONTAINER ID IMAGE COMMAND
haskell - 迭代 + 永远 = iterateM？使用反馈重复操作
我试图永远重复一个 IO 操作，但是将一个执行的结果输入到下一个执行中。像这样的东西: -- poorly named iterateM :: Monad m => (a -> m a) -> a -
language-agnostic - 是否应该始终/永远/从不将对象字段初始化为默认值？
这里的代码样式问题。我看着this问题，它询问.NET CLR是否真的总是初始化字段值。 (答案是肯定的。)但令我感到惊讶的是，我不确定执行此操作始终是个好主意。我的想法是，如果我看到这样的声明:
bash - centos+nodejs+永远(启停)
美好的一天，我对永久启动\停止脚本有一些问题。中央操作系统 6.2 内核 2.6.32-220.el6.x86_64 node.js v0.6.19 npm v 1.1.24 永远@0.9.2 我创
python - Paramiko:读取时管道 block 永远
我在让管道与 paramiko 一起工作时遇到问题。这个有效: ssh = paramiko.SSHClient() [...] stdin, stdout, stderr = ssh.exec_c
Node.js Upstart vs 永远
我希望守护我的 Node.js 应用程序。 Upstart 和永远有什么区别？另外，还有其他我可能想要考虑的软件包吗？最佳答案正如评论中指出的，upstart将用于启动 forever脚本，因为
oracle - 在 oracle 中创建物化 View 永远
我有以下查询，其中包含在 5 秒内返回数据的选择查询。但是当我在前面添加创建物化 View 命令时，查询需要创建物化 View 。最佳答案当您创建物化 View 时，实际上是创建了 Oracle
google-cloud-storage - 谷歌云控制台 "loading"永远
当我今天访问我的项目的 Google Cloud 控制台并单击“计算引擎”或“云存储”时，它只会永远显示“正在加载”。几天前，我能够看到我的虚拟机和存储桶。有没有办法让控制台再次工作？谢谢，麦克风
ios - 如何让 Swift 循环无限期(永远)运行？
我编写了一个函数，它当前显示 1000 以下的所有质数。我可以继续增大 1000 以生成更多数字，但我不知道如何让它在运行后一直持续下去。 func generatePrimes() { l
c++ - 对于具有线程模型两者的对象，COM 编码是否(永远)是必需的？
这是由 another question 触发的. 具体来说，我有一个进程中的 COM 类，它在 CLSID registry 中定义。因为有 ThreadingModel of Both . 我们的
javascript - React hook useEffect 永远/无限循环持续运行
我正在试用新的 React Hooks的 useEffect API，它似乎永远在无限循环中运行!我只希望 useEffect 中的回调运行一次。这是我的引用代码: 单击“运行代码片段”以查看“运行

首页

博学

6Ren·AI

商城

python - 如何基于Scrapy搭建一个永远运行的网络爬虫？