redis - Scrapy 分布式连接数-6ren

redis - Scrapy 分布式连接数

转载作者：可可西里更新时间：2023-11-01 11:13:06

25

4

假设我有几台服务器，每台服务器同时运行多个 Scrapy 蜘蛛实例。每个蜘蛛被限制为 4 个并发请求，CONCURRENT_REQUESTS = 4。具体来说，假设同时有 10 个爬虫实例，所以我绝不会期望同时有超过 40 个请求。

如果我需要在任何给定时间知道所有 10 个蜘蛛中有多少并发请求处于事件状态，我可能会考虑将该整数存储在中央 Redis 服务器上的某个“connection_count”键下。

我当时的想法是编写一些下载器中间件，大致如下所示:

class countMW(object):

    def process_request(self, request, spider):
       # Increment the redis key

    def process_response(self, request, response, spider):
        # Decrement the redis key
        return response

    def process_exception(self, request, exception, spider):
        # Decrement the redis key

但是，使用这种方法，中心键下的连接数似乎可以超过 40。我什至得到 > 4，对于单个蜘蛛运行(当网络处于负载状态时)，甚至对于单个蜘蛛当 redis 存储被替换为将计数存储为蜘蛛实例本身的属性时，以消除远程 redis key 服务器更新中的任何滞后问题。

我认为这不起作用的原因是即使每个蜘蛛的请求并发上限为 4，Scrapy 仍然同时创建和排队超过 4 个请求，并且那些额外的请求调用 process_requests 在获取它们之前很久就递增计数。

首先，这个理论正确吗？其次，如果是的话，有没有一种方法可以让我仅在真正的提取发生时(当请求变为事件状态时)增加 redis 计数，并以类似的方式减少它。

最佳答案

在我看来，自定义调度器更好，因为它更适合 Scrapy 架构，并且您可以完全控制请求发出过程:

Scheduler

The Scheduler receives requests from the engine and enqueues them for feeding them later (also to the engine) when the engine requests them.

https://doc.scrapy.org/en/latest/topics/architecture.html?highlight=scheduler#component-scheduler

例如，您可以在此处找到有关如何自定义调度程序的一些灵感:https://github.com/rolando/scrapy-redis

关于redis - Scrapy 分布式连接数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41987978/

25

4

0

文章推荐： c - 在 C 中确定文件是否正在 Windows 上被删除

文章推荐： node.js - Node js不会订阅具有其他名称的redis channel

文章推荐： windows - PST复制批处理文件添加进度条

文章推荐： python - redis-py的connectionPool中_checkpid方法的功能是什么？

redis - Redis 服务器崩溃时如何接收 Redis 发布消息
我有一个关于 Redis Pubsub 的练习，如下所示: 如果发布者发布消息但订阅者没有收到服务器崩溃。订阅者如何在重启服务器时收到该消息？请帮帮我，谢谢! 最佳答案在这种情况下，消息将永远消失
redis - Redis 服务器重启后服务堆栈 Redis 重新连接
我们正在使用 Service Stack 的 RedisClient 的 BlockingDequeue 来保存一些数据，直到它可以被处理。调用代码看起来像 using (var client =
redis - 如何让一个 Redis 客户端等待所有其他 Redis 客户端响应？
我有一个 Redis 服务器和多个 Redis 客户端。每个 Redis 客户端都是一个 WebSocket+HTTP 服务器，其中包括管理 WebSocket 连接。这些 WebSocket+HTT
redis - 将数据从 Redis 独立实例移动到 Redis 集群
我有多个 Redis 实例。我使用不同的端口创建了一个集群。现在我想将数据从预先存在的 redis 实例传输到集群。我知道如何将数据从一个实例传输到集群，但是当实例多于一个时，我无法做到这一点。最佳
redis - 使用 Redis 集群自动故障转移到提升的 Redis Slave
配置:三个redis集群分区，跨三组一主一从。当 Master 宕机时，Lettuce 会立即检测到中断并开始重试。但是，Lettuce 没有检测到关联的 slave 已经将自己提升为 master
redis - 如何删除存储在给定 Redis 集中的 Redis 键？
我想根据从指定集合中检索这些键来删除 Redis 键(及其数据集)，例如: HMSET id:1 password 123 category milk HMSET id:2 password 456
redis - 有没有办法从 redis 获取所有禁用的 redis 命令的列表？
我正在编写一个机器人(其中包含要禁用的命令列表)，用于监视 Redis。它通过执行禁用命令，例如 (rename-command ZADD "")当我重新启动我的机器人时，如果要禁用的命令列表发生变化
redis - Redis(redis-py)可以处理多少个 channel ？
我的任务是为大量听众使用发布/订阅。这是来自 docs 的订阅的简化示例: r = redis.StrictRedis(...) p = r.pubsub() p.subscribe('my-firs
redis - 1 Redis 哨兵与多个 Redis 哨兵？
我一直在阅读有关使用 Redis 哨兵进行故障转移的内容。我打算有1个master+1个slave，如果master宕机超过1分钟，就把slave变成master。我知道这在 Sentinel 中是
redis - 分片常规 Redis 与 Redis 集群
与仅使用常规 Redis 和创建分片相比，使用 Redis 集群有哪些优势？在我看来，Redis Cluster 更注重数据安全(让主从架构解决故障)。最佳答案我认为当您需要在不丢失任何数据的情
redis - 即使 Redis key 已过期(但仍存在于 Redis 中)，是否可以获得 Redis key ？
由于 Redis 以被动和主动方式使 key 过期，有没有办法得到一个 key ，即使它的过期时间已过 (但在 Redis 中仍然存在 )？最佳答案 DEBUG OBJECT myKey 将返回
redis - 如何在 redis lua 脚本中运行 redis monitor 命令而不是 redis-cli monitor
我想用redis lua来实现monitor命令，而不是redis-cli monitor。但我不知道怎么办。 redis.call('monitor') 不起作用。最佳答案您不能从 Redis
redis - :Redis Replicated setup, Redis Cluster setup Redis Sentinel setup 和 Redis with Master with Slave only 有什么区别？[REDISSON]
我读过 https://github.com/redisson/redisson 我发现有几个 Redis 复制设置(包括对 AWS ElastiCache 和 Azure Redis 缓存的支持)
redis - Microsoft.AspNet.SignalR.Redis 需要 StackExchange.Redis.StrongName，但是 StackExchange.Redis.Extensions.Core 需要 StackExchange.Redis
Microsoft.AspNet.SignalR.Redis 和 StackExchange.Redis.Extensions.Core 在同一个项目中使用。前者需要StackExchange.Red
【Redis】Redis 安装启动使用流程
1. 认识 Redis Redis（Remote Dictionary Server）远程词典服务器，是一个基于内存的键值对型 NoSQL 数据库。特征：键值（key-value）型，value
【Redis】Redis 数据结构介绍
1. Redis 数据结构介绍 Redis 是一个 key-value 的数据库，key 一般是 String 类型，但 value 类型多种多样，下面就举了几个例子： value 类型示例 Str
【Redis】Redis 的缓存使用技巧（商户查询缓存）
1. 什么是缓存缓存（Cache）就是数据交换的缓冲区，是存贮数据的临时地方，一般读写性能较高。缓存的作用：降低后端负载提高读写效率，降低响应时间缓存的成本：数据一致性成本代码维护成本
redis - redis:使用joblib批量插入
我有一份记录 list 。对于我的每条记录，我都需要进行一些繁重的计算，因为我要在Redis中创建反向索引。为了达到到达记录，需要在管道中执行多个redis命令(sadd为100 s + set为1
redis - Redis Multi哨兵失败后不选举新的Redis主机
我有一个三节点Redis和3节点哨兵，一切正常，所有主服务器和从属服务器都经过验证，并且哨兵配置文件已与所有Redis和哨兵节点一起更新，但是问题是当Redis主服务器关闭并且哨兵希望选举失败者时再次
redis - Redis:如何计算已排序列表时间序列中的时间差？
我正在尝试计算Redis中存储的消息之间的响应时间。但是我不知道该怎么做。首先，我必须像这样存储chat_messages的时间流 ZADD conversation:CONVERSATION_ID

首页

博学

6Ren·AI

商城

redis - Scrapy 分布式连接数