apache-kafka - Kafka消费者设计以多实例处理海量数据-6ren

apache-kafka - Kafka消费者设计以多实例处理海量数据

转载作者：行者123 更新时间：2023-12-04 07:53:51

24

4

我正在尝试设计 Kafka 消费者，但我在如何设计流程方面遇到了障碍。我在考虑两种选择:

1.  Process records directly from Kafka.
2.  Staging table write from Kafka and process records.

方法一:随时随地处理来自 Kafka 的关键消息:

•   Read messages one at a time from Kafka & if no records to process break the loop (configurable messages to process)
•   Execute business rules.
•   Apply changes to consumer database.
•   Update Kafka offset to read after processing message.
•   Insert into staging table (used for PD guide later on)

上述方法的问题:

•   Is it OK to subscribe to a partition and keep the lock open on Kafka partition until configurable messages are processed
    and then apply business rules, apply changes to database. All happens in the same process, any performance issues doing this way ?
•   Is it OK to manually commit the offset to Kafka? (Performance issues with manual offset commit).

方法二:从 Kafka 和进程记录写入暂存表

Process 1: Consuming events from Kafka and put in staging table.
Process 2: Reading staging table (configurable rows), execute business rules, apply consumer database changes 
& update the status of processed records in staging table. (we may have multiple process to do this step)

我看到这种方法有很多缺点:

•   We are missing the advantage of offset handling provided by Kafka and we are doing manual update of processed records in staging table.
•   Locking & Blocking on staging tables for multi instance, as we are trying to insert & do updates after processing in the same staging table 
    (note: I can design separate tables and move this data there and process them but that could is introducing multiple processes again.

如何设计具有多实例消费者和要处理的大量数据的 Kafka，哪种设计合适，从 Kafka 读取数据并处理消息或将其暂存到表中并编写另一个作业来处理这些消息是好的？

最佳答案

这就是我认为我们可以获得最佳吞吐量而不用担心消息丢失的方式-

最大化分区数。

部署消费者(最大分区数，如果您的消费者可以毫无问题地运行多线程，则更少。)

从每个消费者中单线程读取(使用自动偏移提交)并将消息放入阻塞队列中，您可以根据每个消费者中的实际处理线程数进行控制。

如果处理失败，您可以重试成功或将消息放入死信队列。不要忘记关闭连接的实现来处理已经消费的消息。

如果您想确保对具有相同键的事件进行排序，一个接一个或一个分区中的任何其他因素，您可以使用确定性执行程序。我用 Java 编写了一个基本的 ExecutorService，它可以确定性地执行多条消息，而不会影响逻辑分离事件的多线程处理。友情链接- https://github.com/mukulbansal93/deterministic-threading

回答您的问题-

Is it ok to subscribe to a partition and keep the lock open on Kafka partition until configurable messages are processed and then apply business rules, apply changes to database. All happens in the same process, any performance issues doing this way?

我在这里没有看到太多性能问题，因为您正在批量处理。但是，您使用的消息之一可能需要很长时间，而其他消息则需要处理。在这种情况下，您将不会从 Kafka 读取导致性能瓶颈的其他消息。

Is it ok to manually commit the offset to Kafka? (Performance issues with manual offset commit).这绝对是吞吐量最低的方法，因为偏移提交是一项昂贵的操作。

关于apache-kafka - Kafka消费者设计以多实例处理海量数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66805903/

24

4

0

文章推荐： python - cumcount() 无

文章推荐： firebase - 如何在firebase firestore中收集后更新数据-flutter

apache-kafka - 由于 Windows 上的致命异常 (kafka.Kafka$)，错误退出 Kafka - Apache Kafka
我在 Windows 机器上启动 Kafka-Server 时出现以下错误。我已经从以下链接下载了 Scala 2.11 - kafka_2.11-2.1.0.tgz:https://kafka.ap
noclassdeffounderror - kafka NoClassDefFoundError kafka/Kafka
关于Apache-Kafka messaging queue . 我已经从 Kafka 下载页面下载了 Apache Kafka。我已将其提取到 /opt/apache/installed/kafka
apache-kafka - 当底层的 Kafka 主题被删除时，Kafka 服务器上的 Kafka 消费者组会发生什么？
假设我有 Kafka 主题 cars。我还有一个消费者组 cars-consumers 订阅了 cars 主题。 cars-consumers 消费者组当前位于偏移量 89。当我现在删除 cars
apache-kafka - 我应该用什么 : Kafka Stream or Kafka consumer api or Kafka connect
我想知道什么最适合我:Kafka 流或 Kafka 消费者 api 或 Kafka 连接？我想从主题中读取数据，然后进行一些处理并写入数据库。所以我编写了消费者，但我觉得我可以编写 Kafka 流应
apache-kafka - Kafka 流与 Kafka 消费者如何决定使用什么
我曾研究过一些 Kafka 流应用程序和 Kafka 消费者应用程序。最后，Kafka流不过是消费来自Kafka的实时事件的消费者。因此，我无法弄清楚何时使用 Kafka 流或为什么我们应该使用
apache-kafka - Kafka 确认与 Kafka 提交
Kafka Acknowledgement 和 Kafka 消费者 commitSync() 有什么区别两者都用于手动偏移管理，并希望两者同步工作。请协助最佳答案使用 spring-kafka
apache-kafka - 如何在 Kafka 代理上代理 Apache Kafka 生产者请求，并重定向到单独的 Kafka 集群？
如何在 Kafka 代理上代理 Apache Kafka 生产者请求，并重定向到单独的 Kafka 集群？在我的特定情况下，无法更新写入此集群的客户端。这意味着，执行以下操作是不可行的: 更新客户端
apache-kafka - ConsumerOffsetChecker 的 Kafka 10 kafka-consumer-groups.sh 与 Kafka 8 kafka-run-class.sh
我需要在 Kafka 10 中命名我的消费者，就像我在 Kafka 8 中所做的一样，因为我有脚本可以嗅出并进一步使用这些信息。显然，consumer.id 的默认命名已更改(并且现在还单独显示了
【kafka】kafka /log_dir_event_notification的LogDir脱机事件通知
1.概述我们会看到zk的数据中有一个节点/log_dir_event_notification/，这是一个序列号持久节点这个节点在kafka中承担的作用是: 当某个Broker上的LogDir出现
apache-kafka - 如何使用 kafka 工具集生成具有空值的 Kafka 记录
我正在使用以下命令: bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test.topic --property
spring-kafka - 如何针对服务器上运行的真实 kafka 代理测试 kafka 消费者？
我很难理解 Java Spring Boot 中的一些 Kafka 概念。我想针对在服务器上运行的真实 Kafka 代理测试消费者，该服务器有一些生产者已将数据写入/已经将数据写入各种主题。我想与服务
apache-kafka - 如何在 Kafka 流中获取当前的 Kafka 主题？
我的场景是我使用了很多共享前缀的 Kafka 主题(例如 house.door, house.room ) 并使用 Kafka 流正则表达式主题模式 API 使用所有主题。一切看起来都不错，我得到了
apache-kafka - kafka AdminClient 获取 kafka 版本
有没有办法以编程方式获取kafka集群的版本？例如，使用AdminClient应用程序接口(interface)。我想在消费者/生产者应用程序中识别 kafka 集群的版本。最佳答案目前无法检索
apache-kafka - KAFKA 重启问题 : Unable to restart kafka without deleting/tmp/kafka-logs
每当我尝试重新启动 kafka 时，它都会出现以下错误。一旦我删除/tmp/kafka-logs 它就会得到解决，但它也会删除我的主题。有办法解决吗？ ERROR Error while
apache-kafka - 从 Kafka 客户端增加 Kafka 主题中的分区数
我是 Apache Kafka 的新用户，我仍在了解内部结构。在我的用例中，我需要从 Kafka Producer 客户端动态增加主题的分区数。我发现了其他类似的 questions关于增加分区大
apache-kafka - 如何将主题从 kafka 集群复制到另一个 kafka 集群？
正如 Kafka 文档所示，一种方法是通过 kafka.tools.MirrorMaker 来实现这一点。但是，我需要将一个主题(比如测试带 1 个分区)(其内容和元数据)从生产环境复制到没有连接
apache-kafka - Spring kafka 和 Kafka 集群
我已经在集群中配置了 3 个 kafka，我正在尝试与 spring-kafka 一起使用。但是在我杀死 kafka 领导者之后，我无法将其他消息发送到队列中。我将 spring.kafka.bo
apache-kafka - 是否可以将偏移量重置为 kafka 连接器中的 kafka 消费者组的主题？
我的 kafka sink 连接器从多个主题(配置了 10 个任务)读取，并处理来自所有主题的 300 条记录。根据每个记录中保存的信息，连接器可以执行某些操作。以下是触发器记录中键值对的示例: "
apache-kafka - Kafka Streams 如何获取 kafka header
我有以下 kafka 流代码 public class KafkaStreamHandler implements Processor{ private ProcessorConte
apache-kafka - kafka 连接失败时的 kafka-streams 警报
当 kafka-streams 应用程序正在运行并且 Kafka 突然关闭时，应用程序进入“等待”模式，发送警告日志的消费者和生产者线程无法连接，当 Kafka 回来时，一切都应该(理论上)去恢复正常

首页

博学

6Ren·AI

商城

apache-kafka - Kafka消费者设计以多实例处理海量数据