apache-flink - 如何在 apache kafka 连接器中实现 exactly once 语义-6ren

apache-flink - 如何在 apache kafka 连接器中实现 exactly once 语义

转载作者：行者123 更新时间：2023-12-05 02:58:31

28

4

我使用的是 flink 版本 1.8.0 。我的应用程序从 kafka 读取数据 -> 转换 -> 发布到 Kafka。为了避免在重启期间出现任何重复，我想使用具有 Exactly once 语义的 kafka 生产者，请在此处阅读:

https://ci.apache.org/projects/flink/flink-docs-release-1.8/dev/connectors/kafka.html#kafka-011-and-newer

我的kafka版本是1.1。

        return new FlinkKafkaProducer<String>( topic,  new KeyedSerializationSchema<String>() {


            public byte[] serializeKey(String element) {
                // TODO Auto-generated method stub
                return element.getBytes();
            }


            public byte[] serializeValue(String element) {
                // TODO Auto-generated method stub
                return element.getBytes();
            }


            public String getTargetTopic(String element) {
                // TODO Auto-generated method stub
                return topic;
            }
        },prop, opt, FlinkKafkaProducer.Semantic.EXACTLY_ONCE, 1);

检查点代码:

    CheckpointConfig checkpointConfig = env.getCheckpointConfig();
    checkpointConfig.setCheckpointTimeout(15 * 1000 );
    checkpointConfig.enableExternalizedCheckpoints(CheckpointConfig.ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);
    env.enableCheckpointing(5000 );

如果我在 kafka producer 中添加了 exactly once sematics，我的 flink consumer 不会读取任何新数据。

任何人都可以与 Exactly once Semantics 分享任何示例代码/应用程序吗？

请在这里找到完整的代码:

https://github.com/sris2/sample_flink_exactly_once

谢谢

最佳答案

Can any one please share any sample code/application with Exactly once Semantics ?

一个恰好一次的例子隐藏在 end-to-end test in flink 中.由于它使用了一些方便的功能，如果不检查整个 repo 可能很难理解。

If I add exactly once sematics in kafka producer , my flink consumer is not reading any new data. [...] Please find complete code here :

https://github.com/sris2/sample_flink_exactly_once

我检查了您的代码并发现了问题(必须修复整个设置/代码才能真正运行)。接收器实际上无法正确配置事务。如 Flink Kafka connector documentation 中所写，您需要将 Kafka 代理中的 transaction.timeout.ms 调整为最多 1 小时或将应用程序中的时间调整为 15 分钟:

    prop.setProperty("transaction.timeout.ms", "900000");

相应的摘录是:

Kafka brokers by default have transaction.max.timeout.ms set to 15 minutes. This property will not allow to set transaction timeouts for the producers larger than it’s value. FlinkKafkaProducer011 by default sets the transaction.timeout.ms property in producer config to 1 hour, thus transaction.max.timeout.ms should be increased before using the Semantic.EXACTLY_ONCE mode.

关于apache-flink - 如何在 apache kafka 连接器中实现 exactly once 语义，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58961258/

28

4

0

文章推荐： c# - 无法加载文件或程序集...但一开始没有？

文章推荐： decimal - 限制计算中的小数精度

文章推荐： git - 无法 git push fatal : remote error: Service not enabled

【Flink】Flink 源码阅读笔记（15）- Flink SQL 整体执行框架
1.概述转载：Flink 源码阅读笔记（15）- Flink SQL 整体执行框架在数据处理领域，无论是实时数据处理还是离线数据处理，使用 SQL 简化开发将会是未来的整体发展趋势。尽管 SQL
【Flink】Flink 计算资源管理
1.概述转载：Flink 源码阅读笔记（6）- 计算资源管理在 Flink 中，计算资源的是以 Slot 作为基本单位进行分配的。本文将对 Flink 中计算资源的管理机制加以分析。 2.Task
【Flink】Flink jvm参数配置GC日志
1.概述转载：Flink jvm参数配置GC日志生产环境上，或者其他要测试 GC 问题的环境上，一定会配置上打印GC日志的参数，便于分析 GC 相关的问题。但是可能很多人配置的都不够“完美”，要
【Flink】Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型
1.概述转载：Flink 源码阅读笔记（20）- Flink 基于 Mailbox 的线程模型相似文章：【Flink】Flink 基于 MailBox 实现的 StreamTask 线程模型 Fl
【FLink】Flink SQL代码生成与UDF重复调用的优化
1.概述转载：Flink SQL代码生成与UDF重复调用的优化 2. 代码生成简介代码生成（code generation）是当今各种数据库和数据处理引擎广泛采用的物理执行层技术之一。通过代码生成
【Flink】Flink 部署性能优化
1.概述转载：面向流批一体的 Flink Runtime 新进展首先是关于调度部分的性能优化。Flink 由于存在 all to all 的连接关系，两个并发为 n 的算子之间会有 n² 条边，这
apache-flink - 为什么我们在 flink 源代码中有 flink-streaming-java 和 flink-streaming-scala 模块
在Fink源码中，有flink-stream-java和flink-stream-scala模块。 flink streaming 为什么需要两个模块？ https://github.com/apac
apache-flink - Flink : How to handle external app configuration changes in flink
我的要求是在一天内流式传输数百万条记录，并且它对外部配置参数有很大的依赖性。例如，用户可以随时在 Web 应用程序中更改所需的设置，并且在进行更改后，必须使用新的应用程序配置参数进行流式传输。这些是应
apache-flink - 在 Apache Flink 服务器上哪里可以找到我使用 Apache Flink 仪表板提交的 jar
我开发了一个 Flink 作业并使用 Apache Flink 仪表板提交了我的作业。根据我的理解，当我提交作业时，我的 jar 应该在 Flink 服务器上可用。我试图找出我的 jar 的路径，但无
apache-flink - 在 Apache Flink 服务器上哪里可以找到我使用 Apache Flink 仪表板提交的 jar
我开发了一个 Flink 作业并使用 Apache Flink 仪表板提交了我的作业。根据我的理解，当我提交作业时，我的 jar 应该在 Flink 服务器上可用。我试图找出我的 jar 的路径，但无
【FLink】Flink 源码阅读笔记（4）- RPC
1.概述转载：Flink 源码阅读笔记（4）- RPC 相关文章：【Flink】Flink 源码之RPC调用 Flink】FLink 通讯组件 RPC 作为一个分布式系统，Flink 内部不同组件
【FLink】flink keyby 分布不均匀问题
1.概述转载并且补充： flink keyby 分布不均匀问题我使用随机数random.nextint(8)作为key，生成keyedstream之后，直接sink到存储中，但是sink算子只有四
【Flink】Flink Sort-Shuffle写流程简析
1.概述转载：Flink Sort-Shuffle写流程简析转载并且补充。 2.配置 taskmanager.network.sort-shuffle.min-parallelism 核心配置。设
【Flink】Flink 批处理模式Map端数据聚合 NormalizedKeySorter
1.概述转载：Flink源码分析——批处理模式Map端数据聚合在flink的批处理模式下，数据的计算也有着map/reduce两端的计算模型，这一点和MR、spark计算框架是类似的。在数据进行分
【Flink】Flink on yarn 远程调试
1.概述转载：Flink on yarn 远程调试大家好，我是 JasonLee。前几天有小伙伴问我，我写的 Flink 代码是提交到 yarn 上去运行的，那我怎么能远程调试代码呢？在本地调试
apache-flink - Flink 中的事件时间窗口不会触发
当我使用 flink 事件时间窗口时，窗口就是不触发。请问如何解决，有什么debug的方法吗？最佳答案由于您使用的是事件时间窗口，所以很可能是水印问题。该窗口仅在水印取得进展时输出。事件时间没有提
apache-flink - Flink 一个作业中的多个作业或多个管道
我有一个用例，我想在 Flink 上运行 2 个独立的处理流程。所以 2 个流程看起来像 Source1 -> operator1 -> Sink1 Source2 -> operator2 -> S
apache-flink - Flink 广播状态如何初始化？
我们正在尝试构建一个用例，其中来自流的数据通过计算公式运行，但公式本身也应该(很少)是可更新的。通过阅读文档，在我看来，Flink 广播状态很适合这种情况。作为实验，我构建了一个简化版本:假设我有一
apache-flink - flink 连接被对等方重置
我有一个 Flink Streaming 作业，它失败了，我得到如下日志。谁能告诉我如何解决这个问题？有时运行一天就失效，有时运行几个小时就失效。 09:30:25 948 INFO (org.ap
apache-flink - Flink 中的预洗牌聚合
我们正在将 spark 作业迁移到 flink。我们在 spark 中使用了 pre-shuffle 聚合。有没有办法在 spark.xml 中执行类似的操作？我们正在使用来自 apache kafk

首页

博学

6Ren·AI

商城

apache-flink - 如何在 apache kafka 连接器中实现 exactly once 语义