bigdata - 弗林克+卡夫卡: Why am I losing messages?-6ren

bigdata - 弗林克+卡夫卡: Why am I losing messages?

转载作者：行者123 更新时间：2023-12-01 16:40:44

27

4

我写了一个非常简单的 Flink 流作业，它使用 FlinkKafkaConsumer082 从 Kafka 获取数据。

protected DataStream<String> getKafkaStream(StreamExecutionEnvironment env, String topic) {
    Properties result = new Properties();
    result.put("bootstrap.servers", getBrokerUrl());
    result.put("zookeeper.connect", getZookeeperUrl());
    result.put("group.id", getGroup());

        return env.addSource(
                new FlinkKafkaConsumer082<>(
                        topic,
                        new SimpleStringSchema(), result);
}

这非常有效，每当我在 Kafka 的主题中放入一些东西时，它就会被我的 Flink 作业接收并处理。现在我试着看看如果我的 Flink Job 由于某种原因不在线会发生什么。于是我关闭了flink job，继续向Kafka发送消息。然后我再次启动我的 Flink 作业，并期望它能够处理同时发送的消息。

但是，我收到了这条消息:

No prior offsets found for some partitions in topic collector.Customer. Fetched the following start offsets [FetchPartition {partition=0, offset=25}]

所以它基本上忽略了自上次关闭 Flink 作业以来出现的所有消息，并在队列末尾开始读取。从我收集到的 FlinkKafkaConsumer082 的文档中，它会自动负责将已处理的偏移量与 Kafka 代理同步。然而，情况似乎并非如此。

我正在使用单节点 Kafka 安装(Kafka 发行版附带的那个)和单节点 Zookeper 安装(也是与 Kafka 发行版捆绑在一起的那个)。

我怀疑这是某种配置错误或类似的问题，但我真的不知道从哪里开始寻找。有没有其他人遇到过这个问题，也许已经解决了？

最佳答案

我找到了原因。您需要在 StreamExecutionEnvironment 中显式启用检查点，以使 Kafka 连接器将处理后的偏移量写入 Zookeeper。如果您不启用它，Kafka 连接器将不会写入最后读取的偏移量，因此当收集作业重新启动时它将无法从那里恢复。所以一定要写:

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(); // <-- this is the important part

Anatoly 关于更改初始偏移量的建议可能仍然是一个好主意，以防检查点由于某种原因失败。

关于bigdata - 弗林克+卡夫卡: Why am I losing messages?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33501574/

27

4

0

文章推荐： c - 数组末尾的 NULL 的用途？

文章推荐： java - Jackson ObjectMapper 在转换为 POJO 时忽略某些键

文章推荐： ios - UIPickerview 没有调用 titleForRow

java - 如何使用标点符号从状态存储中删除旧记录？ (卡夫卡)
我使用 streamsBuilder.table("myTopic") 为某个主题创建了一个 Ktable，并将其具体化为状态存储，以便我可以使用交互式查询. 每小时，我都想从该状态存储(以及关联的变
java - 如何删除消费者已经消费过的数据？卡夫卡
我正在kafka中进行数据复制。但是，kafka 日志文件的大小增长得非常快。一天大小达到 5 GB。作为这个问题的解决方案，我想立即删除已处理的数据。我正在 AdminClient 中使用删除记录方
apache-kafka - 卡夫卡 TOPIC_AUTHORIZATION_FAILED
我实际上正在使用 SASL 纯文本设置简单的 Kafka 身份验证并添加 ACL 授权。但是当我尝试使用数据时遇到问题。 [main] INFO org.apache.kafka.common.uti
streaming - 具有默认调度程序的响应式(Reactive)卡夫卡？
我正在一个使用 Kafka 和 Akka Streams 的项目 reactive-kafka连接器。我们发现reactive-kafka使用它自己的调度程序(akka.kafka.default-d
hadoop - 卡夫卡|无法将数据发布到代理-ClosedChannelException
我试图在HDP上运行简单的kafka生产者消费者示例，但面临以下异常。 [2016-03-03 18:26:38,683] WARN Fetching topic metadata with corr
java - 卡夫卡 : Consumer Crashing
我继承了一些正在实现到另一个项目中的 Kafka 代码，并遇到了一个问题...消费者收到来自生产者的 3995 条消息后，它崩溃并给出以下错误: ERROR Error while accepting
java - flink + 卡夫卡 + JSON
我正在尝试测试 Flink 程序以使用此 JSONKeyValueDeserializationSchema 类读取来自 Kafka 的 JSON 数据。但是我的 Intellij 没有找到这个类。我
Python-卡夫卡 : consumer failing
我有一个简单的生产者-消费者设置:1 个生产者(作为一个线程)和 2 个消费者(作为 2 个进程)。生产者的run方法: def run(self): producer = K
node.js - 卡夫卡 - 滞后
我正在使用“node-rdkafka”npm 模块来构建用 Nodejs 编写的分布式服务架构。我们有一个计量用例，其中我们只允许每 n 秒消耗和处理一定数量的消息。例如，“主”主题有 100 条由生
java - 消费者。如何指定要读取的分区？ [卡夫卡]
我正在学习 Kafka，我想知道当我消费来自主题的消息时如何指定然后分区。我找到了几张这样的图片: 这意味着一个消费者可以消费来自多个分区的消息，但一个分区只能由单个消费者(在消费者组内)读取。此
java - flink+卡夫卡: getHostnamePort
我想从flink读取一个kafka主题 package Toletum.pruebas; import org.apache.flink.api.common.functions.MapFunctio
messaging - Apache 卡夫卡 : consumer state
我阅读了 Kafka 网站上的文档，但是在尝试实现一个完整的最小示例(生产者 --> kafka --> 消费者)之后，我不太清楚“消费者状态”如何处理偏移量。一些信息我正在使用高级 API (J
performance - Spring +卡夫卡: Transactions slow
刚开始使用Spring Kafka(2.1.4.RELEASE)和Kafka(1.0.0)，但是当我添加事务时，处理速度降低了很多。代码: spring.kafka.consumer.max-pol
security - Spark 卡夫卡安全 kerberos
我尝试在安全模式下使用kafka(0.9.1)。我会使用 Spark 读取数据，因此我必须将 JAAS conf 文件传递给 JVM。我使用这个 cmd 来开始我的工作: /opt/spa
java - 卡夫卡 : consume all messages on demand
目标:读取主题中的所有消息，然后终止进程。我能够连续阅读以下消息: props.put("bootstrap.servers", kafkaBootstrapSrv); props.put("gro
bigdata - 弗林克+卡夫卡: Why am I losing messages?
我写了一个非常简单的 Flink 流作业，它使用 FlinkKafkaConsumer082 从 Kafka 获取数据。 protected DataStream getKafkaStream(Str
java - 卡夫卡 : How delete topic works
我使用的是kafka 2.10-0.9.0.1当我通过命令删除主题时，主题被标记为删除。 bin/kafka-topics.sh --zookeeper localhost:2181 --delete
java - 卡夫卡 : How do I enable client logging?
当我实例化一个 Kafka 消费者时 KafkaConsumer consumer = new KafkaConsumer(props); 我收到这条消息 SLF4J: Failed to load
apache-kafka - 卡夫卡 : isolation level implications
我有一个用例，我需要 100% 的可靠性、幂等性(无重复消息)以及我的 Kafka 分区中的顺序保留。我正在尝试使用事务 API 来设置概念证明来实现这一点。有一个名为“isolation.level
apache-kafka - 卡夫卡 : Is our number of partitions insane?
我们有一个 3 主机的 Kafka 集群。我们有 136 个主题，每个主题有 100 个分区，复制因子为 3。这使得我们的集群中有 13,600 个分区。这是我们主题的合理配置吗？最佳答案太多了

首页

博学

6Ren·AI

商城

bigdata - 弗林克+卡夫卡: Why am I losing messages?