apache-kafka - 为什么这个 KStream/KTable 拓扑会传播没有通过过滤器的记录？-6ren

apache-kafka - 为什么这个 KStream/KTable 拓扑会传播没有通过过滤器的记录？

转载作者：行者123 更新时间：2023-12-04 12:11:19

25

4

我有以下拓扑:

创建状态存储

根据 SOME_CONDITION 过滤记录，将其值映射到新实体，最后将这些记录发布到另一个主题 STATIONS_LOW_CAPACITY_TOPIC

但是我在 STATIONS_LOW_CAPACITY_TOPIC 上看到了这个:

�   null
�   null
�   null
�   {"id":140,"latitude":"40.4592351","longitude":"-3.6915330",...}
�   {"id":137,"latitude":"40.4591366","longitude":"-3.6894151",...}
�   null

也就是说，就好像它也将那些没有通过过滤器的记录发布到 STATIONS_LOW_CAPACITY_TOPIC 主题。这怎么可能？我怎样才能防止它们被发布？

这是 ksteams 代码:

kStream.groupByKey().reduce({ _, newValue -> newValue },
                Materialized.`as`<Int, Station, KeyValueStore<Bytes, ByteArray>>(STATIONS_STORE)
                        .withKeySerde(Serdes.Integer())
                        .withValueSerde(stationSerde))
                .filter { _, value -> SOME_CONDITION }
                .mapValues { station ->
                    Stats(XXX)
                }
                .toStream().to(STATIONS_LOW_CAPACITY_TOPIC, Produced.with(Serdes.Integer(), stationStatsSerde))

更新:我已经简化了拓扑并打印了结果表。出于某种原因，最终的 KTable 还包含与未通过过滤器的上游记录相对应的空值记录:

kStream.groupByKey().reduce({ _, newValue -> newValue },
                Materialized.`as`<Int, BiciMadStation, KeyValueStore<Bytes, ByteArray>>(STATIONS_STORE)
                        .withKeySerde(Serdes.Integer())
                        .withValueSerde(stationSerde))
                .filter { _, value ->
                    val conditionResult = (SOME_CONDITION)
                    println(conditionResult)
                    conditionResult
                }
                .print()

日志:

false
[KTABLE-FILTER-0000000002]: 1, (null<-null)
false
[KTABLE-FILTER-0000000002]: 2, (null<-null)
false
[KTABLE-FILTER-0000000002]: 3, (null<-null)
false
[KTABLE-FILTER-0000000002]: 4, (null<-null)
true
[KTABLE-FILTER-0000000002]: 5, (Station(id=5, latitude=40.4285524, longitude=-3.7025875, ...)<-null)

最佳答案

答案在 KTable.filter(...) 的 javadoc 中:

Note that filter for a changelog stream works different to record stream filters, because records with null values (so-called tombstone records) have delete semantics. Thus, for tombstones the provided filter predicate is not evaluated but the tombstone record is forwarded directly if required (i.e., if there is anything to be deleted). Furthermore, for each record that gets dropped (i.e., dot not satisfy the given predicate) a tombstone record is forwarded.

这解释了为什么我看到向下游发送的空值(墓碑)记录。

为了避免它，我将 KTable 转换为 KStream，然后应用过滤器:

kStream.groupByKey().reduce({ _, newValue -> newValue },
                Materialized.`as`<Int, Stations, KeyValueStore<Bytes, ByteArray>>(STATIONS_STORE)
                        .withKeySerde(Serdes.Integer())
                        .withValueSerde(stationSerde))
                .toStream()
                .filter { _, value -> SOME_CONDITION }
                .mapValues { station ->
                    StationStats(station.id, station.latitude, station.longitude, ...)
                }
                .to(STATIONS_LOW_CAPACITY_TOPIC, Produced.with(Serdes.Integer(), stationStatsSerde))

结果:

4   {"id":4,"latitude":"40.4302937","longitude":"-3.7069171",...}
5   {"id":5,"latitude":"40.4285524","longitude":"-3.7025875",...}
...

关于apache-kafka - 为什么这个 KStream/KTable 拓扑会传播没有通过过滤器的记录？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52086694/

25

4

0

文章推荐： reactjs - 如何在 React Router Link 组件中添加动态代码

文章推荐： Teamcity 自定义脚本日志输出

文章推荐： eclipse - 'Ignore potential matches' 的含义

文章推荐： python-3.x - 在 Python 中禁用 websockets 包的记录器

kubernetes - 我们如何在图中可视化kubernetes对象/拓扑？
是否可以可视化kubernetes拓扑并看到它在添加/删除/链接对象时实时更新？我在https://www.youtube.com/watch?v=38SNQPhsGBk上观看了一个视频，其中服务/
hadoop - Hadoop中的 Rack 拓扑
我在搜索 Rack 拓扑时发现了这个问题...可能是hadoop认证问题: 您的群集在三个不同的 Rack 中都有从属节点，并且您编写了一个 Rack 拓扑脚本，以将每台计算机分别识别为位于 Rack
javascript - 如何动态添加链接到 d3 拓扑？
我拿了sticky force layout示例并尝试添加额外链接并使用 enter() 更新布局，但随后所有链接都消失了，FireBug 也没有显示任何错误。这些行不应该添加链接吗？ graph.
zeromq - 右 ZeroMQ 拓扑
我需要编写一个订单管理器，将客户(股票、外汇等)订单发送到适当的交易所。客户想要发送订单，但对 FIX 或其他专有协议(protocol)一无所知，只知道发送订单的内部(规范化)格式。我有应用程序(服
java - 无法提交 Storm 拓扑
我正在尝试使用 Eclipse 在远程主机上提交 Storm 拓扑。这是我的代码: Config conf = new Config(); conf.setDebug(false); conf.se
python - 将自定义开关类传递给 Mininet 拓扑
这是一个名为 mininet 的流行网络模拟器的拓扑文件我创建了一个 MultiSwitch() 类，我想将其传递给我的 Topology 类以用作默认开关有没有办法做到这一点？我对Python不
linux - 如何找到我的 CPU 拓扑？
我从 cat/proc/cpuinfo 中了解到，我正在使用 Intel(R) Core(TM) i5 CPU M 560 @ 2.67GHz。但是我想知道确切的层次结构，比如有多少个套接字，每个套接
apache-kafka - 如何在同一个实例上运行多个 Storm 拓扑？
我正在学习storm。我对我们可以在 Apache Storm 上一次运行的拓扑数量有疑问。我已经在 Storm 集群上提交了两个拓扑，但一次只运行了一个拓扑。我需要杀死或停用已经存在的拓扑拓扑以运行
masstransit - MassTransit 创建的 RabbitMQ 拓扑
我正在尝试理解 topology of queues并交换 MT 在 RabbitMQ 中创建的。我不能得到这两个陈述: we generate an exchange for each queue
testing - 测试 Kafka Streams 拓扑
我正在寻找一种方法来测试 Kafka Streams 应用程序。这样我就可以定义输入事件，测试套件会向我显示输出。如果没有真正的 Kafka 设置，这可能吗？最佳答案更新 Kafka 1.1.0
java - 如何以编程方式终止 Apache Storm 拓扑？
我正在使用 Java 类将拓扑提交到 Storm 集群，我还计划使用 Java 类来终止拓扑。但根据 Storm documentation ，以下命令用于终止拓扑并且没有 Java 方法(这是有正当
hadoop - 如何在我的机器上运行 Storm 拓扑...使我的机器陷入 Storm
Storm jar storm-starter-topologies-0.10.0-beta1.jar storm-starter-master.jar生产拓扑本地我遇到了错误: Running:
java - 如何在代码中使用新的 Bolt 更新现有的 Storm 拓扑？
我正在编写一个 dockerized Java Spring 应用程序，该应用程序使用 Apache Storm v1.1.2、Kafka v0.11.0.1、Zookeeper 3.4.6、Eure
java - 在 JavaFx 中使用 JTS 拓扑
我在 jts 拓扑库中有一些多边形。如果我想在 javafx Pane 上绘图，我会这样做: Polygon poly=new Polygon();//javafx //g is geometry
java - 如何动态地在 Java 中绘制(星形)拓扑？
我需要在 Java GUI 应用程序中动态绘制(星形)拓扑。通过星形拓扑，我的意思是这样的: (来源:thebryantadvantage.com) 不需要太花哨，但我不想做得太丑陋和粗糙。我所说的动
linux - 从 bash 脚本初始化 Mininet 拓扑
我想自动化设置 Mininet 的过程虚拟机，通过 SSH 连接到 VM，在 VM 中启动 Mininet，并初始化拓扑。我需要 session 保持打开状态，以便我可以使用创建的网络向 Minine
java - 使用 Java 代码重新平衡 Storm 拓扑
我正在尝试重新平衡使用 KafkaSpout 的 Storm 拓扑。我的代码是: TopologyBuilder builder = new TopologyBuilder(); Pr
performance - 如何在不使用 Web 仪表板的情况下分析 Apache Storm 拓扑？
标题几乎说明了一切，我有一些 Storm 拓扑，我想测量它们的延迟，即来自 Kafka 的消息与最终相关执行的最后一点之间的时间量 bolt 。如果我可以深入研究结果以查看每个 bolt 之间的延迟，
java - 更改 Kafka-streams 拓扑(添加重新分区步骤)对消息处理保证有影响吗
假设我想让一些转换“A”可配置。此转换使用状态存储管理某些状态，并且还需要重新分区，这意味着仅在配置后才会进行重新分区。现在，如果我按照以下方式(或任何其他组合)运行应用程序 3 次(也可能是滚动升级
java - 使用 shell bolt 构建 Storm 拓扑
我目前正在尝试实现与 R 语言集成的 Storm 拓扑。作为起点，我采用了以下项目 ( https://github.com/allenday/R-Storm )，它通过扩展 ShellBolt 类

首页

博学

6Ren·AI

商城

apache-kafka - 为什么这个 KStream/KTable 拓扑会传播没有通过过滤器的记录？