gpt4 book ai didi

hadoop - 合流 HDFS 连接器 : How can I read from the latest offset when there are no hdfs files?

转载 作者:可可西里 更新时间:2023-11-01 16:28:14 25 4
gpt4 key购买 nike

我们有一个运行了几天的生产者应用程序,它正在为 topicA 生产数据。我们想启动 hdfs 连接器以从 topicA 读取而不是从偏移量 0 读取(因为这将导致巨大的滞后)。我们想从最新偏移量开始(一直有新数据进入 topicA)。

1) 由于连接器从 hdfs 中的主题名称获取偏移量信息,我们如何从最新的偏移量中读取,因为 hdfs 中不存在任何文件?

2) 我能想到的一个选项是为每个分区手动创建具有最新偏移量的虚拟文件,但我们在这里讨论的是 topicA 中的 60 个分区,所以有没有更优雅的方法来做到这一点?

最佳答案

NoName ,最近添加了 HDFS 连接器在 HDFS 中没有文件名的情况下重置为最新提交的偏移量的能力。

您将在 4.0.1 或 4.1.0 及更高版本中找到它。

HDFS 连接器是一个接收器连接器,可自行管理消费者偏移量。这样做是为了在将文件导出到 HDFS 时实现精确一次语义。在上述版本之前,如果连接器在 HDFS 中没有找到任何文件,它将从主题的最早偏移量开始使用,而不管任何消费者设置。

您可能会在此处找到相关更改,这些更改现在允许连接器在 HDFS 中没有文件的情况下查询已提交的偏移量:

https://github.com/confluentinc/kafka-connect-hdfs/pull/299https://github.com/confluentinc/kafka-connect-hdfs/pull/305

关于hadoop - 合流 HDFS 连接器 : How can I read from the latest offset when there are no hdfs files?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50807357/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com