java - 无法从开始获得STORM NEW VERSION(1.0.1)中的消息-6ren

java - 无法从开始获得STORM NEW VERSION(1.0.1)中的消息

转载作者：行者123 更新时间：2023-12-02 21:19:23

25

4

我们正尝试从使用 STORM版本0.9.3 开始在kafka中获取消息，并能够将其放入HBASE TABLE中。

为此，我们使用的配置是:

kafkaConfig.forceFromStart = true;

因此，我们从 OFFSET 0 获得消息，即从hbase表中开始，即完整消息。

但是，当我们尝试使用 STORM VERSION 1.0.1 从kafka开头获取消息并将其放入HBASE TABLE中时，我们仅获得了最后一条消息。我们没有从一开始就获得 OFFSET 0 的消息(即，最后添加的消息能够从一开始就获得它)。

我们使用的配置:

kafkaConfig.scheme = new SchemeAsMultiScheme(new StringScheme());
kafkaConfig.useStartOffsetTimeIfOffsetOutOfRange = true;
kafkaConfig.startOffsetTime = kafka.api.OffsetRequest.EarliestTime();
kafkaConfig.ignoreZkOffsets = false;
kafkaConfig.maxOffsetBehind = Long.MAX_VALUE;
kafkaConfig.startOffsetTime = -2;

任何帮助表示赞赏。

最佳答案

如果要强制使用者使用指定的偏移量而不是从Zookeeper读取它，则必须将ignoreZkOffsets设置为true。

从storm-kafka的文档中:

This means that when a topology has run once the setting KafkaConfig.startOffsetTime will not have an effect for subsequent runs of the topology because now the topology will rely on the consumer state information (offsets) in ZooKeeper to determine from where it should begin (more precisely: resume) reading. If you want to force the spout to ignore any consumer state information stored in ZooKeeper, then you should set the parameter KafkaConfig.ignoreZkOffsets to true. If true, the spout will always begin reading from the offset defined by KafkaConfig.startOffsetTime as described above.

因此，要使用队列开头的消息，请使用以下配置:

kafkaConfig.ignoreZkOffsets = true;
kafkaConfig.startOffsetTime = kafka.api.OffsetRequest.EarliestTime();

关于java - 无法从开始获得STORM NEW VERSION(1.0.1)中的消息，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37836631/

25

4

0

文章推荐： docker - 在现有k8s集群上预取docker镜像

文章推荐： haskell - OO Haskell 中 return 和 returnIO 的区别

文章推荐： laravel - 从具有命名空间的多态关系中获取数据

文章推荐： maven - Maven打包类型 `docker`是否存在？

apache-storm - Storm 用户界面不工作
我们正在以伪模式执行 Storm 拓扑。 Storm 拓扑运行良好，能够连接 Storm UI (8080)。但是Storm UI 没有显示正在运行的拓扑信息。也重新启动了 Storm UI 进程
apache-storm - Storm 拓扑中的可选流
我们有一个相当简单的 Storm 拓扑，让人头疼。我们的一个 bolt 可以发现它正在处理的数据是有效的，并且每件事都正常进行，或者它可以发现它是无效但可以修复的。在这种情况下，我们需要将其发送以进
apache-storm - Storm 中的三叉戟状态是什么？
我是 Storm 中 Trident 的新手。我对 TridentState 感到很头疼。据我了解，三叉戟维护每个批次的状态(即元数据)(批次中的所有元组是否都通过在数据库中维护事务 ID 来完全处理
apache-storm - Storm 场分组
我有以下情况: 有许多 bolt 计算不同的值该值被发送到可视化 bolt 可视化 bolt 打开一个网络套接字并发送值以某种方式可视化问题是，可视化 bolt 总是相同的，但它为可以作为其输入的
apache-storm - Storm 场分组示例
我正在使用 Kafka storm，kafka 向 storm 发送/发出 json 字符串，在 storm 中，我想根据 json 中的键/字段将负载分配给几个工作人员。怎么做？在我的例子中，它是
apache-storm - Storm 支持类似批处理的处理
我需要使用 Storm 处理成批的元组。我的最后一个 bolt 必须等到拓扑接收到整个批次，然后才能进行一些处理。为避免混淆 - 对我来说，批处理是一组实时出现的 N 条消息，该术语不必与批处理 (H
apache-storm - Storm 中的连接被拒绝错误
我是 Storm 的新手..我遇到了以下错误 java.net.ConnectException: Connection refused at sun.nio.ch.SocketChannel
apache-storm - Storm - 主管在重启时崩溃
这是一个让我发疯的问题。我的本地 LAN 上运行着一台机器 Storm 实例。我目前正在运行 v0.9.1-incubating发布版本(来自 the Apache Incubator site。问题
apache-storm - Storm ClassNotFoundException
我是第一次使用 Storm(从开始使用 Storm 学习)，我的项目在运行时失败并出现 ClassNotFoundException: [WARNING] java.lang.ClassNotFoun
apache-storm - Storm 拓扑配置
如何为 Storm 拓扑提供自定义配置？例如，如果我构建了一个连接到 MySQL 集群的拓扑，并且我希望能够在不重新编译的情况下更改需要连接的服务器，我该怎么做？我的偏好是使用配置文件，但我担心文件本
apache-storm - Storm 好用吗？
我一直在阅读 Storm并尝试使用 Storm-starter 中的示例。我想我明白了这个概念，它非常适用于许多情况。我有一个我想做的测试项目来了解更多关于这方面的信息，但我想知道 Storm 是否
apache-storm - Storm 中的背压
在我们的 Storm 1.0.2 应用程序中，我们面临内存不足的异常。在调试时，我们发现 Kafka spout 向 Bolt 发出了太多消息。 bolt 的运行能力几乎为 4.0。那么有没有一种方法
apache-storm - 三叉戟拓扑中的并行配置( Storm )
看完this和 this我很难理解如何配置我的三叉戟拓扑。基本上我的 Storm 应用程序正在读取 kafka ，进行一些数据操作，最后写入 Cassandra . 这是我目前构建拓扑的方式: pr
apache-storm - build Storm 启动器 : getting error "POM for storm-core missing"
我已经从 https://github.com/apache/incubator-storm 下载了 incubator-storm 代码.现在，我尝试使用以下命令运行 WordCountTopolo
apache-storm - 了解 Storm 架构
我一直在努力理解 Storm 架构，但我不确定我是否理解正确。我会尽量准确地解释我认为的情况。请解释什么 - 如果 - 我错了，什么是对的。初步想法: worker http://storm.apa
apache-storm - 重新平衡后 Storm 任务状态会转移到新的执行器吗？
这是我阅读后想到的一个问题: What is the "task" in Storm parallelism 如果我需要在 bolt 的内部状态中保留一些信息，例如，在经典的单词计数用例中，将 bol
apache-storm - Apache Storm 无法从种子主机中找到领导者灵气
我已经使用 docker compose 安装了 Apache-Storm docker-compose.yml: kafka: image: spotify/kafka ports:
apache-storm - 以编程方式获取 Storm 拓扑统计信息
我正在围绕我的 Storm 拓扑构建一个监控服务，并希望能够获取各个时间窗口周围的失败元组数量，类似于 Storm UI 如何在 10m、3h 和 1d 窗口中显示失败元组的数量。我的监控服务目前是
apache-storm - 向 Storm 提交拓扑
我已经在我的机器上配置了 Storm。 Zookeeper、Nimbus 和 Supervisor 运行正常。现在我想向这个 Storm 提交一个拓扑。我正在尝试使用 Storm jar 。但我
apache-storm - (Twitter) Storm 的聚合窗口
我在玩 Storm，我想知道 Storm 在哪里指定(如果可能)聚合时的(翻滚/滑动)窗口大小。例如。如果我们想在 Twitter 上找到前一小时的热门话题。我们如何指定一个 bolt 应该每小时返回

首页

博学

6Ren·AI

商城

java - 无法从开始获得STORM NEW VERSION(1.0.1)中的消息