java - Kafka Streams 在生成主题时不会将偏移量增加 1-6ren

java - Kafka Streams 在生成主题时不会将偏移量增加 1

转载作者：搜寻专家更新时间：2023-11-01 02:35:35

26

4

我实现了一个简单的 Kafka 死信记录处理器。

它在使用控制台制作者生成的记录时完美运行。

但是我发现我们的 Kafka Streams 应用程序不保证向接收器主题生成记录时，偏移量将针对每条生成的记录递增 1。

死信处理器背景:

我有一个场景，在发布处理记录所需的所有数据之前，可能会收到记录。当记录与流应用程序的处理不匹配时，它们将移至死信主题，而不是继续向下流。发布新数据时，我们会将死信主题中的最新消息转储回流应用程序的源主题，以便使用新数据进行重新处理。

死信处理器:

在运行应用程序开始时记录每个分区的结束偏移量
结束偏移量标记停止处理给定死信主题记录的点，以避免在重新处理的记录返回死信主题时无限循环。
应用程序从上一次运行通过消费者组产生的最后一个 Offsets 恢复。
应用程序正在使用事务和 KafkaProducer#sendOffsetsToTransaction 提交最后生成的偏移量。

为了跟踪我的范围内的所有记录何时针对主题分区进行处理，我的服务将其最后生成的生产者偏移量与消费者保存的结束偏移量映射进行比较。当我们到达结束偏移量时，消费者通过 KafkaConsumer#pause 暂停该分区，当所有分区都暂停时(意味着它们达到保存的结束偏移量)然后调用它退出。

Kafka Consumer API状态:

Offsets and Consumer Position Kafka maintains a numerical offset for each record in a partition. This offset acts as a unique identifier of a record within that partition, and also denotes the position of the consumer in the partition. For example, a consumer which is at position 5 has consumed records with offsets 0 through 4 and will next receive the record with offset 5.

Kafka Producer API引用下一个偏移量也总是 +1。

Sends a list of specified offsets to the consumer group coordinator, and also marks those offsets as part of the current transaction. These offsets will be considered committed only if the transaction is committed successfully. The committed offset should be the next message your application will consume, i.e. lastProcessedMessageOffset + 1.

但是您可以在我的调试器中清楚地看到，单个分区消耗的记录不会一次递增 1...

我认为这可能是 Kafka 配置问题，例如 max.message.bytes 但没有一个真正有意义。然后我想也许是因为加入，但没有看到任何方式可以改变制作人的运作方式。

不确定是否相关，但我们所有的 Kafka 应用程序都使用 Avro 和 Schema Registry...

无论生产方法如何，偏移量是否应该始终递增 1，或者使用 Kafka 流 API 是否可能无法提供与普通生产者消费者客户端相同的保证？

我是否完全缺少某些东西？

最佳答案

即使 JavaDocs 表明了这一点(似乎应该更新 JavaDocs)，消息偏移量增加 1 也不是官方 API 契约(Contract)。

如果您不使用事务，您要么获得至少一次语义，要么得不到任何保证(有些人称之为最多一次语义)。对于至少一次，记录可能被写入两次，因此，由于重复写入“消耗”了两个偏移量，因此两个连续消息的偏移量实际上并没有增加一个。
如果您使用事务，事务的每次提交(或中止)都会将一个提交(或中止)标记写入主题——这些事务标记也会“消耗”一个偏移量(这是您观察到的)。

因此，一般来说你不应该依赖连续的偏移量。您获得的唯一保证是，每个偏移量在分区内都是唯一的。

关于java - Kafka Streams 在生成主题时不会将偏移量增加 1，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54636524/

26

4

0

文章推荐： multithreading - 如何使用 Indy 建立双向 TCP 连接？

文章推荐： Perl 和服务器-客户端套接字

memory - 检查正在运行的程序中的可用 RAM 量
我的一个 friend 在一次求职面试中被要求编写一个程序来测量可用 RAM 的数量。预期的答案是以二进制搜索方式使用 malloc():分配越来越大的内存部分，直到收到失败消息，减少部分大小，然后对
javascript - 堆快照大小远小于使用的 RAM 量
我正在通过任务管理器检查 Chrome 中特定选项卡的内存消耗情况。它显示了我使用的 RAM 量相当大: 但是，当我在开发人员工具中拍摄堆快照时，其显示的大小要小几倍: 怎么会这样呢？最佳答案并非
.net - 以编程方式查找可用的 RAM 量
是否有一种可移植的方式，可以在各种支持的操作系统上同时在 .Net 和 Mono 上运行，让程序知道它运行的机器上有多少 RAM(即物理内存而不是虚拟内存)可用？上下文是一个程序，其内存要求是“请尽
android - 查看项目android中的总 View 量
有谁知道是否有办法查看 android studio 项目中的所有 View 、LinearLayout、TextView 等？我正在使用 android 设备监视器中的层次结构查看器使用 xml
python - 运行外部命令并获取它消耗的 CPU 量
很简单，我想从 Python 脚本中运行外部命令/程序，完成后我还想知道它消耗了多少 CPU 时间。困难模式:并行运行多个命令不会导致 CPU 消耗结果不准确。最佳答案在 UNIX 上: (a)
javascript - 在数组中向前和向后选择 X 量，如果需要循环到开始和结束
我需要在给定数组索引和范围的情况下，在返回新索引的数组中向前循环 X 量并向后循环 X 量。如果循环向前到达数组的末尾，它将在数组的开头继续。如果循环在向后时到达开头，它会在数组末尾继续。例如，数
android - 应用程序中的最大 Activity 量？安卓
Android 应用程序中是否有类似最大 Activity 的内容？我想知道，因为我正在考虑创建具有铃声功能的声音应用程序。它将有大约 40 个 Activity 。但只有 1 个会持续运行。那太多了
ios - UIModalTransitionStylePartialCurl，较少的 curl 量
有什么方法可以限制这种演示文稿的 curl 量吗？我知道系统会根据我们以 taht 方式模态呈现的 viewcontroller View 内的内容自动 curl 。但 thta 在我的 iPad
java - Java 是否有一种可移植的方法来检查最大 RAM 量？
我正在编写一个 Java 应用程序，它需要检查系统中可用的最大 RAM 量(不是 VM 可用的 RAM)。有没有可移植的方式来做到这一点？非常感谢:-) 最佳答案 JMX 您可以访问 java.la
dart - 有没有办法限制 Dart 编辑器使用的 RAM 量？
我发现它使用了 600 MB 的 RAM，甚至超过了 Visual Studio(当它达到 400 MB 的 RAM 时我将其关闭)。最佳答案 dart 编辑器基于 Eclipse，而 Eclips
java - 如何以编程方式检查分配给 JVM 的 RAM 量？
这个问题已经有答案了: Java get available memory (10 个回答) 已关闭 7 年前。假设我有一个专门运行一个程序的 JVM，我如何获得分配给 JVM 的 RAM 量？假
java - 手动增加 Java 应用程序使用的 CPU 量
我刚刚使用 Eclipse 编写了一个程序，该程序需要很长时间才能执行。它花费的时间甚至更长，因为它只将我的 CPU 加载到 25%(我假设这是因为我使用的是四核，而程序只使用一个核心)。有没有办法让
java - 减少 BFS 算法占用的 RAM 量
我编写了一个 2x2x2 魔方求解器，它使用广度优先搜索算法求解用户输入的立方体位置。该程序确实解决了立方体。然而，当我进入一个很难解决的问题时，我会在搜索的深处发现这个问题，我用完了堆空间。我的电脑
linux - 限制 fio 命令使用的 RAM 量？
我正在尝试同步运行多个 fio 线程，但随着线程数量的增加，我的计算机内存不足。似乎每个 fio 线程占用大约 200MB 的 RAM。话虽这么说，有没有办法让每个线程都有一个固定的最大内存使用量？设
python - 确定 sklearn 决策树中的 split 量
我使用“fitctree”函数(链接:https://de.mathworks.com/help/stats/classificationtree-class.html)在 Matlab 中开发了一个
c# - 限制 .NET 进程可以使用的最大 RAM 量？
我有一个 .NET 进程，由于我不会深入探讨的原因，它消耗了大量 RAM。我想要做的是对该进程可以使用的 RAM 量实现上限。有办法做到这一点吗？我找到的最接近的是 Process.GetCurre
xcode - 确定 iOS 设备上的可用 RAM 量
您可能已经看到许多“系统信息”应用程序，它们显示诸如剩余电池生命周期之类的信息，甚至显示内存等系统信息。以类似的方式，是否有任何方法可以从我的应用中检索当前可用 RAM 量，以便我可以更好地决定何时
visual-c++ - MFC 是否仍用于新开发(具有任何 Material 量)？
我从来都不是 MFC 的忠实粉丝，但这并不是重点。我读到微软将在 2010 年发布新版本的 MFC，这让我感到很奇怪 - 我以为 MFC 已经死了(不是恶意，我真的这样做了)。 MFC 是否用于新开发
c++ - 以编程方式获取 OS X 上安装的 RAM 量
我在一台安装了 8 GB 内存的机器上工作，我试图以编程方式确定机器中安装了多少内存。我已经尝试使用 sysctlbyname() 来获取安装的内存量，但它似乎仅限于返回带符号的 32 位整数。 ui
html - 中心 x float 量 : left divs horizontally
基本上，我想要一个由大小相同的 div(例如 100x100)和类似 200x100 的变体构建的页面。它们都 float :向左调整以相应地调整窗口大小。问题是，我不知道如何让它们在那种情况下居中，

首页

博学

6Ren·AI

商城

java - Kafka Streams 在生成主题时不会将偏移量增加 1