python - Scrapyd 和单蜘蛛的并行/性能问题

转载作者：太空狗更新时间：2023-10-29 19:30:02

24

4

上下文

我正在运行 scrapyd 1.1 + scrapy 0.24.6 和一个“selenium-scrapy hybrid”蜘蛛，它根据参数在许多域上爬行。托管 scrapyd 实例的开发机器是一个 4 核的 OSX Yosemite，这是我当前的配置:

[scrapyd]
max_proc_per_cpu = 75
debug = on

scrapyd启动时的输出:

2015-06-05 13:38:10-0500 [-] Log opened.
2015-06-05 13:38:10-0500 [-] twistd 15.0.0 (/Library/Frameworks/Python.framework/Versions/2.7/Resources/Python.app/Contents/MacOS/Python 2.7.9) starting up.
2015-06-05 13:38:10-0500 [-] reactor class: twisted.internet.selectreactor.SelectReactor.
2015-06-05 13:38:10-0500 [-] Site starting on 6800
2015-06-05 13:38:10-0500 [-] Starting factory <twisted.web.server.Site instance at 0x104b91f38>
2015-06-05 13:38:10-0500 [Launcher] Scrapyd 1.0.1 started: max_proc=300, runner='scrapyd.runner'

编辑:

核心数:

python -c 'import multiprocessing; print(multiprocessing.cpu_count())' 
4

问题

我想要一个为单个蜘蛛同时处理 300 个作业的设置，但 scrapyd 一次处理 1 到 4 个作业，而不管有多少作业待处理:

Scrapy console with jobs

编辑:

CPU 使用率不是很高:

CPU Usage for OSX

在 UBUNTU 上测试

我还在 Ubuntu 14.04 VM 上测试了这个场景，结果大致相同:执行时最多运行 5 个作业，没有过多的 CPU 消耗，执行的时间大致相同相同数量的任务。

最佳答案

日志显示您最多允许 300 个进程。因此，限制在链的更上游。我最初的建议是这是您项目的序列化，如 Running multiple spiders using scrapyd 所涵盖的那样。 .

后来的调查表明，限制因素实际上是轮询间隔。

关于python - Scrapyd 和单蜘蛛的并行/性能问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30672910/

24

4

0

文章推荐： python - nose.collector 在哪里寻找测试？

文章推荐： python - Python 中的静态链接和动态链接分别是什么意思？

java数据结构基础:单,双向链表
单向链表单向链表比顺序结构的线性表最大的好处就是不用保证存放的位置，它只需要用指针去指向下一个元素就能搞定。单链表图解图画的比较粗糙，简单的讲解一下：上面四个长方形，每个长方
c - 单 socket 多线程接收器
使用TCP，我正在设计一些类似于next的程序。客户端在许多线程中的接收正在等待一台服务器的发送消息。但是，这是有条件的。 recv正在等待特定的发送消息。例如客户 thread 1: recv
dns - 是否可以拥有一个(单)字符顶级域名？
我正在编写正则表达式来验证电子邮件。唯一让我困惑的是: 顶级域名可以使用单个字符吗？(例如:lockevn.c) 背景:我知道顶级域名可以是 2 个字符到任意字符(.uk、.us 到 .canon、.
Symfony2 单 Controller 多路由
是否可以在单个定义中定义同一 Controller 的多个路由？例如: 我想要一个单一的定义 /, /about, /privacy-policy 使用类似的东西 _home: pat
ios - 单 View 应用程序具有无法更改的黑色背景
我正在使用 objective-c开发针对 11.4 iOS 的单 View 应用程序，以及 Xcode版本是 9.4.1。创建后有Main.storyboard和LaunchScreen.stor
C - 单 shell 管道实现不断在终端中挂起
我一直在尝试在 shell 程序中实现管道结构，如果我执行简单的命令(例如“hello | rev”)，它就可以工作但是当我尝试执行“head -c 1000000/dev/urandom | wc
MySQL 单 DISTINCT 列
此表包含主机和接口(interface)列UNIQUE 组合* 编辑:这个表也有一个自动递增的唯一 ID，抱歉我应该在之前提到这个 ** | host.... | interface..... |
c++ - 单 channel 图像的滑动窗口标准过滤器
我想将具有固定补丁大小的“std filter”应用于单 channel 图像。也就是说，我希望 out[i,j] 等于 img[i,j] 附近的像素值的标准值。对于那些熟悉 Matlab 的人，
java - RxJavas 单。它的连接方法在哪里？
假设我想进行网络调用并使用 rx.Single，因为我希望只有一个值。我如何应用replay().autoConnect() 这样的东西，这样当我从多个来源订阅时网络调用就不会发生多次？我应该使用
c++ - 单 channel 平均值
我将图像从 rgb 转换为 YUV。现在我想单独找到亮度 channel 的平均值。你能告诉我如何实现这一目标吗？此外，有没有办法确定图像由多少个 channel 组成？最佳答案你可以这样做: #
scala - 单 token 前瞻的性能损失是多少？
在比较Go和Scala的语句结束检测时，我发现Scala的规则更丰富，即: A line ending is treated as a semicolon unless one of the foll
verilog - 单(＆)和双(&&)＆二进制运算符之间有什么区别？
在IEEE 1800-2005或更高版本中，&和&&二进制运算符有什么区别？它们相等吗？我注意到，当a和b的类型为bit时，这些coverpoint定义的行为相同: cp: coverpoint a
flutter - 单 View flutter 的提供者
我正在使用Flutter的provider软件包。我要实现的是为一个 View 或页面提供一个简单的提供程序。因此，我在小部件中尝试了以下操作: Widget build(BuildContext c
openmp - cython openmp 单，屏障
我正在尝试在 cython 中使用 openmp。我需要在 cython 中做两件事: i) 在我的 cython 代码中使用 #pragma omp single{} 作用域。 ii) 使用#pra
javascript - 替换函数内的 Espace 单/双引号
我正在尝试从转义字符字符串中删除单引号和双引号。它对单引号 ' 或双自动 " 不起作用。请问有人可以帮忙吗？ var mysting = escapedStr.replace(/^%22/g, '
openmp - cython openmp 单，屏障
我正在尝试在 cython 中使用 openmp。我需要在 cython 中做两件事: i) 在我的 cython 代码中使用 #pragma omp single{} 作用域。 ii) 使用#pra
encryption - ANT+ 单 channel 加密示例
我正在使用 ANT+ 协议(protocol)，将智能手机与 ANT+ USB 加密狗连接，该加密狗通过 SimulANT+ 连接到 PC。 SimulANT+ 正在模拟一个心率传感器，它将数据发送到
multithreading - 单/多线程 (OpenMP) 模式下计算精度的差异
有人可以解释/理解单/多线程模式下计算结果的不同吗？这是一个大约的例子。圆周率的计算: #include #include #include const int itera(100000000
c# - OpenGL - 单 channel 立方体贴图不产生任何输出
我编写了一个粗略的阴影映射实现，它使用 6 个不同的 View 矩阵渲染场景 6 次以创建立方体贴图。作为优化，我正在尝试使用几何着色器升级到单 channel 方法，但很难从我的着色器获得任何输出
javascript - 单 SPA AngularJS 中断父应用程序的路由
尝试使用 Single-Spa 构建一些东西并面临添加到应用程序 AngularJS 的问题。 Angular2 和 ReactJs 工作完美，但如果添加 AngularJS 并尝试为此应用程序使用

首页

博学

6Ren·AI

商城

python - Scrapyd 和单蜘蛛的并行/性能问题

上下文

编辑:

问题

编辑:

在 UBUNTU 上测试