gpt4 book ai didi

google-cloud-platform - 谷歌云发布订阅 : How to read only latest records

转载 作者:行者123 更新时间:2023-12-05 06:24:15 25 4
gpt4 key购买 nike

在 Kafka 中,有 2 个设置 earliestlatest,您可以从主题的最早偏移量 (0) 或最新事件(对实时有用)开始读取

我现在将 PubSub 与 Dataflow 和 Beam 一起使用,但默认情况下,作业似乎每次启动时都从最早开始读取。如何配置它以便它只读取最新的记录?

由于 latest 是 Kafka 中的默认值,谁能解释为什么这在 Pub/Sub 中不容易实现?

最佳答案

最新的定义是什么?事实上,使用 Beam,PubsubIO 阅读器是一个无限制的阅读。也就是说,没有尽头,最近之后总有更新!

所以,这是哲学部分。事实上,你必须定义,最新的比较什么。使用光束,您可以使用 windowing .然后,您可以说,在 5 分钟的窗口内,我想处理最后一个。这里最新的定义是正确的,你可以实现它。

关于google-cloud-platform - 谷歌云发布订阅 : How to read only latest records,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57805297/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com