gpt4 book ai didi

apache-kafka - 为什么kafka偏移量存储在应用程序的消费者端?

转载 作者:行者123 更新时间:2023-12-04 03:00:38 25 4
gpt4 key购买 nike

我们有一个 kafka 集群和 spark-streaming 消费者。目前,偏移量存储在消费者端的数据存储中。当我们使用的最新 kafka 提供在代理级别存储消费者偏移量的功能时(在 kafka 的 _consumer_offset 主题上),在消费者端存储的原因是什么。

一个论点是,如果 kafka 集群出现故障,我们仍然有偏移量信息。但是,如果 kafka 集群出现故障,即使消息丢失,也无法为给定的偏移量重放消息。

我遗漏了一些明显的东西,但无法弄清楚。谢谢

最佳答案

据我了解,您要回答的核心问题是

One argument would be if kafka cluster goes down, we still have offset information. But if kafka cluster goes down, even messages are lost and no message can be replayed for a given offset.

通过在外部存储偏移量范围,它允许 Spark Streaming 应用程序能够从任何时间点重新启动和重播消息,只要消息在 Kafka 中仍然存在。因此,在外部存储偏移量的决定可能不仅仅是基于恢复场景,而是一般场景。

link来自 Cloudera 非常好

关于apache-kafka - 为什么kafka偏移量存储在应用程序的消费者端?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49527112/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com