apache-kafka - Kafka Streams - 是否有可能减少由多个聚合创建的内部主题的数量-6ren

apache-kafka - Kafka Streams - 是否有可能减少由多个聚合创建的内部主题的数量

转载作者：行者123 更新时间：2023-12-04 04:22:42

25

4

我有一个 Kafka Streams 应用程序，它按多个值对传入消息进行分组。例如:

示例消息:

{ "gender": "female", "location": "canada", "age-group": "25-30" }

拓扑:

table
    .groupBy((key, value) -> groupByGender) // example key: female
    .count("gender-counts");

table
    .groupBy((key, value) -> groupByLocation) // example key: canada
    .count("location-counts");

table
    .groupBy((key, value) -> groupByAgeGroup) // example key: 25-30
    .count("age-group-counts");

这会产生很多主题:

my-consumer-gender-counts-changelog
my-consumer-gender-counts-repartition
my-consumer-location-counts-changelog
my-consumer-location-counts-repartition
my-consumer-age-group-counts-changelog
my-consumer-age-group-counts-repartition

如果我们可以将多个聚合发送到单个状态存储，并将按值分组作为键的一部分，那就太好了。例如:

table
    .groupBy((key, value) -> groupByGender) // example key: female_gender
    .count("counts");

table
    .groupBy((key, value) -> groupByLocation) // example key: canada_location
    .count("counts");

table
    .groupBy((key, value) -> groupByAgeGroup) // example key: 25-30_age_group
    .count("counts");

这将导致更少的主题:

counts-changelog
counts-repartition

目前这似乎是不可能的(无论如何使用 DSL)，因为使用 groupBy 运算符会创建一个用于重新分区的内部主题，所以如果我们有多个子拓扑 groupBy 不同的东西，那么 Kafka Streams 将尝试从多个来源注册相同的重新分区主题。这会导致以下错误:

org.apache.kafka.streams.errors.TopologyBuilderException: Invalid topology building: Topic counts-repartition has already been registered by another source.
        at org.apache.kafka.streams.processor.TopologyBuilder.validateTopicNotAlreadyRegistered(TopologyBuilder.java:518)

如果 groupBy 可以返回多条记录(例如像 flatMap 那样)，那么我们可以返回一组记录(每个分组一条记录)，但是这似乎也无法使用 DSL。

我的问题是，给定一个可以按多个值分组的记录(例如 { "gender": "female", "location": "canada", "age-group": "25-30 ")，是否应该关注创建多个主题(每个分组 2 个)(例如，我们有 100 个不同的分组)？当单个记录可以按多个值分组时，是否有其他策略可能更适合？我提出的建议(将多个聚合下沉到单个变更日志主题)是不是一个坏主意(即使唯一键的数量非常少)？

最佳答案

如果要按不同的属性分组，就不能避免多次重新划分主题。假设您有两个分组属性 g1 和 g2 以及三个具有以下值的记录:

r1 = g1:A, g2:1
r2 = g1:A, g2:2
r3 = g1:B, g2:2

因此，要根据g1 正确聚合记录，记录r1 和r2 必须组合在一起。假设您的重新分区主题有 2 个分区 p1 和 p2，记录将像这样重新分配

p1: r1, r2
p2: r3,

另一方面，如果您在 r2 上聚合，则记录 r2 和 r3 必须分组在一起:

p1: r1
p2: r2,r3

请注意，对于这两种情况，r2 必须转到不同的分区，因此，不可能使用单个主题，但每个分组需要一个主题。 (这不是 Kafka 特有的——任何其他框架也需要多次复制和重新分发日期)。

理论上，如果您添加更多语义信息(如 super 键、子键或一对一键映射)，则可以减少主题的数量。但这不受 Kafka Streams(和 AFAIK，没有其他可比系统)的支持。

关于apache-kafka - Kafka Streams - 是否有可能减少由多个聚合创建的内部主题的数量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44114758/

25

4

0

文章推荐： haskell - 如何在 Windows 上安装 cairo

文章推荐：不同操作系统上的R帮助文件

文章推荐： graph-theory - "diamond"有向无环图的正确术语是什么？

「降本」有可能，「增效」不确定
降本手段一招鲜，增效方法吃遍天； 01 互联网行业里；降本策略千奇百怪，手段却出奇一致；增效方法五花八门，手段更是花里胡哨；对于企业来说；
javascript - AngularJS中的 Controller 有可能(部分类)概念吗？
有什么方法可以使用 angularjs 中的部分进行代码分组吗？原因 --- 我的 Controller 包含太多代码。该 Controller 包含了多个方法和大量功能的代码，降低了代码的可读性。
sql - 有可能 "Select N times"吗？
不幸的是，我的数据库的数据模型必须改变，所以我正在寻找最轻松的方式来迁移我的数据。此时情况如何: create table cargo{ id serial primary key, per
c++ - 有可能 "update"一个 QTextCursor 吗？
在 QTextEdit 对象中，假设我想知道字符在鼠标光标下的位置。我会写... void MyQTextEditObject::mousePressEvent(QMouseEvent* mouse
c++ - 有可能 "return a return statement"吗？
是否可以在 C++ 中返回一个 return 语句或做一些具有类似功能的事情？例如，如果代码中有几个函数将指针作为输入，并且每个函数都检查指针是否为 nullptr，这将很方便。如果它是一个 nul
c# - 有可能 signalR 客户端网络连接另一台 PC 上的服务器吗？
我的 PC 上有一个控制台应用程序，它是 signalR 服务器。我有一个 html 页面，它是互联网上的 signalR 客户端。但我尝试连接服务器，但我有一个错误的请求 400 错误。如果服务器
android - 应用程序打开为 "background process"。有可能 react native 吗？
我想将应用程序作为后台进程运行。当点击应用程序图标时，它不会显示任何 View ，只会启动后台进程。最佳答案对于 iOS 这是不可能的，但是对于 android，react native 有 he
java - Android开发 : Visual Studio + Java. 有可能(值得一试)吗？
我知道有(昂贵的)框架可以让你在 VS C# 中编写 android 应用程序并将其编译为 android apk。我也知道，可以在 VS 中编写 Java 应用程序(link)。是否有可能，甚至
ruby-on-rails - 有可能 CanCan can :manage, :all except one or more method?
我在做: can :manage, :all if user.role == 'admin' can :approve, Anuncio do |anuncio| anuncio.try(:apr

首页

博学

6Ren·AI

商城

apache-kafka - Kafka Streams - 是否有可能减少由多个聚合创建的内部主题的数量