apache-kafka-streams - Kafka流聚合是否有任何订购保证？-6ren

apache-kafka-streams - Kafka流聚合是否有任何订购保证？

转载作者：行者123 更新时间：2023-12-04 17:31:59

25

4

我的Kafka主题包含由deviceId键控的状态。我想使用KStreamBuilder.stream().groupByKey().aggregate(...)仅将状态的最新值保留在TimeWindow中。我猜想，只要按键对主题进行分区，聚合函数就可以始终以这种方式返回最新值:
(key, value, older_value) -> value
这是我对Kafka Streams的期望吗？我应该使用自己的检查时间戳的处理方法吗？

最佳答案

Kafka Streams保证按的顺序偏移的顺序，但不按时间戳的顺序进行排序。因此，默认情况下，“上次更新获胜”策略基于偏移量而不基于时间戳。延迟到达的记录(在时间戳上定义的“晚期”)基于时间戳是乱序的，因此不会重新排序以保持原始偏移量的顺序。

如果要使窗口包含基于时间戳的最新值，则需要使用Processor API(PAPI)来使此工作有效。

在Kafka Streams的DSL中，您无法访问获得正确结果所需的记录时间戳。一种简单的方法可能是将.transform()放在.groupBy()之前，然后将时间戳添加到记录本身(即其值)。因此，您可以在Aggregator中使用时间戳记(顺便说一句，使用更简单的.reduce()也可以代替.aggregate()起作用)。最后，您需要在.mapValues()之后执行.aggregate()，以再次从值中删除时间戳。

使用DSL和PAPI的这种混合匹配方法可以简化您的代码，因为您可以使用DSL窗口支持和KTable，而无需执行低级的时间窗口和状态管理。

当然，您也可以在单个低级有状态处理器中完成所有这些操作，但是我不建议这样做。

关于apache-kafka-streams - Kafka流聚合是否有任何订购保证？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41548370/

25

4

0

文章推荐： email - 公司如何为自动电子邮件地址设置名称和头像？

文章推荐： ember.js - 如何访问 Controller ember.js 中的参数

文章推荐： webstorm - WebStorm-实时模板-指示聚焦相同变量的顺序

文章推荐： reporting-services - 连接到SSRS中的数据源时出错

linux - Pkill 保证
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
c++ - 一种确保系统托盘图标被删除的方法......保证
有没有办法保证您的系统托盘图标被删除？添加系统托盘图标: Shell_NotifyIcon(NIM_ADD, &m_tnd); 删除系统托盘图标: Shell_NotifyIcon(NIM_DELE
C++ 运算符 % 保证
是否保证(-x) % m，其中x和m在c++中为正standard (c++0x) 为负数，等于 -(x % m)? 我知道它在我知道的所有机器上都是正确的。最佳答案除了Luchian的回答，这是
multithreading - 保证 future 从某一点开始吗？
可能还有其他方法可以作为示例，但这不是我要问的重点。我正在这样做: (future (clojure.java.shell/sh "sleep" "3" :dir "/tmp")) 启动对Shell
Redis 保证 XREAD 返回值？
可以使用 XREAD(或者可能是另一个命令)以原子方式检测数据是否写入 Redis 流？进一步来说: 假设您在一个进程中将一些数据添加到 Redis 流中，并看到数据已通过某个自动生成的 key 成
Kotlin 协程 "happens-before"保证？
Kotlin 协程是否提供任何“发生之前”保证？例如，在这种情况下，写入 mutableVar 和随后在(可能)其他线程上读取之间是否存在“发生之前”保证: suspend fun doSometh
android - 保证 android 继续检索传感器数据
我正在开发一个跟踪行程的应用程序。在搜索了这件事之后，我得出结论，实现这一点(持续跟踪用户的位置)的最好方法是使用前台服务。在某些情况下工作得很好，但在其他一些情况下(即使关闭 DOZE)，我得到一些
sql - SELECT * 语句中的列顺序 - 保证？
我正在使用 ORM (sqlalchemy) 从 PG 数据库中获取数据。我想避免在我手工编写的 SQL 语句中指定所有表列名称*。到目前为止，我的假设是返回的列按照用于创建数据库表的 DDL 语句
javascript - React setState() 保证
在 setState 的文档中这样说: setState() does not immediately mutate this.state but creates a pending state tr
C - 保证 condvars 已准备好发送信号
我有一个与不同硬件接口(interface)的简单应用程序。对于每个硬件，我针对一个独特的监视器函数生成了一个 pthread_t，总共有 6 个线程:1 个管理线程和 5 个工作线程。每个线程都有
java - 保证 DateFormat 的年份字段只有两位数的便携方法
目前，我有 private ThreadLocal shortDateFormat = new ThreadLocal() { @Override protected DateFormat i
java - 保证 Solr 提交已经发生
我有一个使用 SolrCloud 将文档写入 Solr 的 Java 作业。输入数据被转换为不同实体的映射，然后将每个实体写入与其实体类型对应的 Solr 集合。我的代码如下: public voi
embedded - 保证 TCP 数据包大小
我们使用嵌入式设备通过串行到以太网转换器将数据包从串行端口发送到服务器。我们使用的一家制造商 Moxa 将始终以与构建它们相同的方式发送数据包。意思是，如果我们构建一个大小为 255 的数据包，它将始
java - 不抛出 VirtualMachineError 保证
我是从 C++ 转到 Java 的。在 C++ 世界中，我们关注异常安全，并注意到变元器可以在变元器本身或其委托(delegate)的方法抛出异常时提供不同的保证(最小、强、不抛出)。实现具有强异常保
java - 为每个线程创建一个非线程安全对象并使用 happens-before 保证
我想将来自 SAAJ 的 SOAPConnectionFactory 和 MessageFactory 类与多个线程一起使用，但事实证明我不能假设它们是线程安全的。一些相关的帖子: javax.xml
c# - 保证 C# 中的不变性
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 5 年前。 Improve
c++ - sizeof 和类型，保证
关于正确性，我找不到以下代码片段没有设计缺陷的证据/反证据。 template class MyDirtyPool { public: template std::size_t ad
c - 保证 C 数据类型的最小大小/范围
对于这个问题，我找到了不同的答案，我知道一定有一个确定的答案。 C 中四种主要数据类型的最小分配内存大小是多少？ int , double , float , 和 char是我在想什么。做 signe
apache-kafka - Kafka Producer 保证
我正在使用 Kafka Producer，我的应用程序将具有相同键的各个 ProducerRecords 发送到单个分区中，然后这些 ProducerRecords 在发送到代理之前进行批处理(使用
java - SendRedirect "preventing resubmission"保证？
您好，我是服务器端编程 (java) 的新手，正在阅读 SendRedirect 与 Forward 之间的区别。来自 Post-redirect-get pattern它解释说这将阻止通过点击刷新按

首页

博学

6Ren·AI

商城

apache-kafka-streams - Kafka流聚合是否有任何订购保证？