gpt4 book ai didi

google-cloud-dataflow - 为什么 Dataflow-BigTable 连接器不支持增量?

转载 作者:行者123 更新时间:2023-12-04 02:05:24 28 4
gpt4 key购买 nike

我们在 Streaming 模式下有一个用例,我们希望从管道(#items 完成处理的东西)跟踪 BigTable 上的计数器,我们需要对其进行增量操作。从看https://cloud.google.com/bigtable/docs/dataflow-hbase ,我看到此客户端不支持 HBase API 的追加/增量操作。陈述的原因是批处理模式的重试逻辑,但如果数据流保证恰好一次,为什么支持它是一个坏主意,因为我确定增量只被调用一次?我想了解我缺少的部分。

此外,CloudBigTableIO 是否可以在流模式下使用,还是只能绑定(bind)到批处理模式?我想我们可以直接在管道中使用 BigTable HBase 客户端,但连接器似乎具有我们想要利用的连接池等不错的属性,因此出现了问题。

最佳答案

Dataflow(和其他系统)在出现故障和重试时提供恰好一次执行的方式是要求副作用(例如改变 BigTable)是幂等的。 “写”是幂等的,因为它在重试时被覆盖。通过包含对插入进行重复数据删除的确定性“插入 ID”,可以使插入成为幂等的。

对于增量,情况并非如此。不支持是因为重试时不是幂等的,所以不支持exactly-once execution。

关于google-cloud-dataflow - 为什么 Dataflow-BigTable 连接器不支持增量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43854923/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com