distributed - 在 Apache Kafka 中，为什么消费者实例不能多于分区？-6ren

distributed - 在 Apache Kafka 中，为什么消费者实例不能多于分区？

转载作者：行者123 更新时间：2023-12-03 05:44:34

24

4

我正在学习 Kafka，请阅读此处的介绍部分

https://kafka.apache.org/documentation.html#introduction

特别是关于消费者的部分。在引言的倒数第二段中，写着

Kafka does it better. By having a notion of parallelism—the partition—within the topics, Kafka is able to provide both ordering guarantees and load balancing over a pool of consumer processes. This is achieved by assigning the partitions in the topic to the consumers in the consumer group so that each partition is consumed by exactly one consumer in the group. By doing this we ensure that the consumer is the only reader of that partition and consumes the data in order. Since there are many partitions this still balances the load over many consumer instances. Note however that there cannot be more consumer instances than partitions.

我的困惑源于最后一句话，因为在该段落正上方的图像中，作者描述了两个消费者组和一个 4 分区主题，消费者实例比分区多!

消费者实例的数量不能多于分区也是没有意义的，因为那样分区就会非常小，而且为每个消费者实例创建新分区的开销似乎会让 Kafka 陷入困境。我知道分区用于容错并减少任何一台服务器上的负载，但上面的句子在分布式系统的上下文中没有意义，该系统应该能够一次处理数千个消费者。

最佳答案

好吧，要理解它，需要理解几个部分。

为了提供排序总订单，消息只能发送给一个消费者。否则效率会非常低，因为它需要等待所有消费者都收到消息才能发送下一条消息:

However, although the server hands out messages in order, the messages are delivered asynchronously to consumers, so they may arrive out of order on different consumers. This effectively means the ordering of the messages is lost in the presence of parallel consumption. Messaging systems often work around this by having a notion of "exclusive consumer" that allows only one process to consume from a queue, but of course this means that there is no parallelism in processing.

Kafka does it better. By having a notion of parallelism—the partition—within the topics, Kafka is able to provide both ordering guarantees and load balancing over a pool of consumer processes. This is achieved by assigning the partitions in the topic to the consumers in the consumer group so that each partition is consumed by exactly one consumer in the group. By doing this we ensure that the consumer is the only reader of that partition and consumes the data in order. Since there are many partitions this still balances the load over many consumer instances. Note however that there cannot be more consumer instances than partitions.

Kafka only provides a total order over messages within a partition, not between different partitions in a topic.

此外，您认为的性能损失(多个分区)实际上是性能增益，因为 Kafka 可以完全并行地执行不同分区的操作，同时等待其他分区完成。

该图显示了不同的消费者组，但每个分区最多一个消费者的限制仅限于一个组内。您仍然可以拥有多个消费者组。

首先描述了两种情况:

If all the consumer instances have the same consumer group, then this works just like a traditional queue balancing load over the consumers.

If all the consumer instances have different consumer groups, then this works like publish-subscribe and all messages are broadcast to all consumers.

因此，订阅者组越多，性能越低，因为 kafka 需要将消息复制到所有这些组并保证总顺序。

另一方面，组越少，分区越多，您从并行化消息处理中获得的 yield 就越多。

关于distributed - 在 Apache Kafka 中，为什么消费者实例不能多于分区？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25896109/

24

4

0

文章推荐： nhibernate - SaveOrUpdate 与 NHibernate 中的更新和保存

文章推荐： php - CodeIgniter:如何从 URL 中删除消息？

文章推荐：用GOOGLE搜索html源代码？

文章推荐： web-services - 是否可以批量上传到亚马逊s3？

kafka的Java客户端-消费者
kafka的Java客户端-消费者一、kafka消费方式 pull（拉）模式：consumer采用从broker中主动拉取数据。Kafka 采用这种方式 push（推）模式：Kafka没有采用这种方
具有多线程的Python生产者/消费者
我编写这个小应用程序是为了解决 Python 中的经典生产者/消费者问题。我知道我可以使用线程安全的队列机制来解决这个问题，但我有兴趣自己解决这个问题来学习。 from threading impor
消费者/生产者程序卡住了
下面是一个示例消费者/生产者模型的代码: int buffer[MAX]; int fill_ptr = 0; int use_ptr = 0; int count = 3; void put(int
消费者-生产者问题
我的消费者、生产者程序有问题，它似乎可以加载，但返回段错误。我已经尝试了一切来修复它，但仍然失败!将不胜感激任何帮助。笔记;代码真的很多，semaphore.h的代码都在里面，有谁想测试一下。其余代码
填充所有缓冲区的算法生产者-消费者
我正在阅读著名的操作系统概念书(Avi Silberschatz、Peter Baer Galvin、Greg Gagne)第 9 版:http://codex.cs.yale.edu/avi/os-
c# - 具有节流持续时间和批量消费的异步生产者/消费者
我正在尝试构建一个服务，为许多异步客户端提供队列以发出请求并等待响应。我需要能够通过每 Y 个持续时间的 X 个请求来限制队列处理。例如:每秒 50 个 Web 请求。它用于第 3 方 REST 服务
c# - 拥有资源的生产者-消费者
我正在尝试使用一组资源来实现生产者/消费者模式，因此每个线程都有一个与之关联的资源。例如，我可能有一个任务队列，其中每个任务都需要一个 StreamWriter写出它的结果。每个任务还必须有参数传
Azure Eventhub 消费者
为什么我们需要 Azure 存储帐户上的 blob 容器用于 Eventhub 消费者客户端(我使用的是 python)。为什么我们不能像在 Kafka 中那样直接使用来自 Eventhub(Kafk
java - 区间分区的生产者-消费者
我有一个有趣的生产者-消费者衍生产品需要实现，但我无法理解它的算法。因此，每个生产者都会“产生”给定范围(最小值，最大值)之间的数字，这对除以给定“商”给出了相同的提醒。对于消费者来说也是如此。额外
java - 如何使用自动线程管理在Java中实现生产者/消费者
我需要实现一种生产者/消费者方案，出于性能原因，消费者尝试在一批中处理许多工作项(每个工作项都会耗尽工作队列)。目前，我只是创建固定数量的相同工作人员，它们在循环中的同一队列上工作。由于其中一些可能
Azure Eventhub 消费者
为什么我们需要 Azure 存储帐户上的 blob 容器用于 Eventhub 消费者客户端(我使用的是 python)。为什么我们不能像在 Kafka 中那样直接使用来自 Eventhub(Kafk
java - Java中的复合生产者-消费者
我的关系必须按如下方式运作；线程 A 向线程 B 发布一些更改，线程 B 接受该更改并将其发布到线程 C。问题是生产者-消费者，我使用 BlockingQueue 仅用两个实体来实现它没有问题。我怎
java - 使用java同步理解生产者-消费者
我一直在研究 PC 问题，以了解 Java 同步和线程间通信。使用底部的代码，输出为 Producer produced-0 Producer produced-1 Producer produced
java - 使用同步的生产者-消费者
我编写了代码来实现生产者-消费者问题，它似乎工作正常，不需要同步。这可能吗？如何测试代码并检查它是否确实正常工作？我如何知道是否会发生死锁？现在，我没有跳出循环(即生产者不断插入，消费者不断在无限循
java - java线程生产者-消费者
我必须完成一项练习，我必须使用至少一个生产者线程和 x 个消费者线程的生产者/消费者模式在我的文件夹路径中查找“.java”文件。生产者消费者级:首先，当生产者完成查找文件时，我尝试通过设置从 tr
c - 消费者/生产者任务的解决方案
我被分配了一项类(class)作业来实现消费者/生产者问题的解决方案，该解决方案使用单个生产者、单个消费者和循环缓冲区。这应该用 C 语言编写。不幸的是，我们没有获得任何学习 Material ，并
c - 具有有限缓冲区的生产者/消费者
有人可以检查我的代码并告诉我是否走在正确的轨道上。我似乎有点迷失了。如果您看到我的错误，请告诉我它们。我想做的是使用我自己的信号量以及 GCD 来解决有界缓冲区问题。提前致谢.. sema.c v
消费者-生产者，断言失败
我要处理有界缓冲区、生产者消费者问题，只能修改 prod 和 cons 函数。此代码仅在一个消费者和生产者线程上运行，不会出现任何问题。但对于每个都有多个，迟早总会给我带来同样的问题: p5p1:
c# - 异步生产者/消费者
我有一个从多个线程访问的类的实例。此类接受此调用并将元组添加到数据库中。我需要以串行方式完成此操作，因为由于某些数据库约束，并行线程可能会导致数据库不一致。由于我不熟悉 C# 中的并行性和并发性，所
java - 具有批量和刷新功能的生产者/消费者
我正在尝试编写一个批量邮件服务，它有两种方法: add(Mail mail):可以发送邮件，由Producers调用 flushMailService():刷新服务。消费者应该获取一个列表，并调用另一

首页

博学

6Ren·AI

商城

distributed - 在 Apache Kafka 中，为什么消费者实例不能多于分区？