gpt4 book ai didi

apache-kafka - Kafka Streams 在处理时间窗口内排序

转载 作者:行者123 更新时间:2023-12-02 01:03:07 25 4
gpt4 key购买 nike

我想知道是否有任何方法可以使用 Kafka Streams DSL 或 Processor API 对窗口内的记录进行排序。

以以下情况为例(任意一种,但与我需要的类似):

  • 有一些事件的 Kafka 主题,比如说用户点击。假设主题有 10 个分区。消息按键进行分区,但每个键都是唯一的,因此它是一种随机分区。每条记录都包含一个用户 ID,稍后会使用该用户 ID 对流进行重新分区。
  • 我们消费流,并将每条消息发布到另一个主题,根据用户 ID 对记录进行分区(按用户 ID 重新分区原始流)。
  • 然后我们消费这个重新分区的流,我们将消费的记录存储在窗口化 10 分钟的本地状态存储中。一个特定用户的所有点击总是在同一个分区,但顺序没有保证,因为原始主题有10个分区。
  • 我了解Kafka Streams的窗口模型,当新记录进来时,时间提前了,但我需要这个窗口使用处理时间,而不是事件时间,然后当窗口过期时,我需要能够对缓冲进行排序事件,并按顺序将它们发送到另一个主题。

  • 注意:
  • 我们需要能够使用处理时间而不是事件时间来刷新/处理窗口内的记录。我们不能等待下一次点击来提前时间,因为它可能永远不会发生。
  • 我们需要从商店中删除所有记录,尽快对窗口进行排序和刷新。
  • 如果应用程序崩溃,我们需要恢复(在应用程序的同一个或另一个实例中)并处理所有未处理的窗口,而不需要等待特定用户的新记录。

  • 我知道 Kafka Streams 1.0.0 允许在处理 API 中使用挂钟时间,但我不确定实现我需要的正确方法是什么(更重要的是考虑到上述恢复过程要求)。

    最佳答案

    你可以在这里看到我对类似问题的回答:
    https://stackoverflow.com/a/44345374/7897191

    由于您的消息键已经是唯一的,您可以忽略我关于重复数据删除的评论。

    现在 KIP-138(挂钟标点语义)已在 1.0.0 中发布,您应该能够毫无问题地实现概述的算法。它使用处理器 API。我不知道只用 DSL 来做到这一点的方法。

    关于apache-kafka - Kafka Streams 在处理时间窗口内排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49260476/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com