gpt4 book ai didi

google-cloud-dataflow - Google Cloud Dataflow 中的自动缩放

转载 作者:行者123 更新时间:2023-12-04 12:56:55 24 4
gpt4 key购买 nike

我们有一个流管道,我们启用了自动缩放。一般来说,一个worker就足以处理传入的数据,但如果有积压,我们希望自动增加worker的数量。

我们的管道每 3 分钟从 Pubsub 读取数据,并使用加载作业将批次写入 BigQuery。我们从一名工作人员开始运行这个管道,向 pubsub 发布的数据是一名工作人员可以消耗的数据的两倍。 2 小时后,自动缩放仍然没有启动,因此积压的数据将是大约 1 小时的数据。鉴于自动缩放旨在将积压保持在 10 秒以下(根据 this SO answer),这似乎相当糟糕。

文档here说流作业的自动缩放处于测试阶段,如果接收器是高延迟的,则已知它是粗粒度的。是的,我想每 3 分钟执行一次 BigQuery 批处理算作高延迟!在改进这种自动缩放算法方面是否有任何进展?

在此期间,我们是否可以采取任何变通办法,例如在管道中的不同点测量吞吐量?我找不到任何关于吞吐量如何报告给自动缩放系统的文档。

最佳答案

积压日志是由未确认的消息创建的,我猜您正在使用拉订阅。如果消息的处理时间比确认时间长,它将按照 at-least-once delivery 重新发送。来自发布/订阅。唯一能够处理此消息的工作人员是第一个收到它的工作人员。在这种情况下不会创建实例。

您需要做的是调整您的系统以在确认截止日期到期之前处理消息。在某些情况下,您可能会受益于使用推送消息。我建议查看有关 backlog 的文档。由 Pub/Sub 创建。

关于google-cloud-dataflow - Google Cloud Dataflow 中的自动缩放,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51088518/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com