gpt4 book ai didi

google-cloud-platform - Google Dataflow - 调度

转载 作者:行者123 更新时间:2023-12-01 12:11:44 25 4
gpt4 key购买 nike

在 Google 云平台 - Dataflow 中,当流式传输无界 PCollection(例如使用 PubSubIO 的 PubSub 主题)时,是否有一种有效的方法来启动和停止 Dataflow 中的波束管道? (示例在一天开始运行并在一天结束时结束)让调度程序拥有 Cron App 引擎服务并启动上述管道作业然后停止作业的唯一方法是什么?看看是否还有其他选择。

此外,如果我为无界 PCollection(比如来自 PubSub)选择窗口化,是否有办法将文件写入可配置目录中,比如。每个窗口的每小时目录?我看到它为每个窗口创建了一个文件。

最佳答案

我同意 Pablo 的观点,Airflow(以及 GCP 方面的 Cloud Composer)是您问题第一部分的不错选择。

关于您问题的第二部分,您可以查看 Google 提供的流式管道数据流模板 from Cloud Pub/Sub to Google Cloud Storage files ,您可以通过将 outputDirectory 设置为 gs:///YYYY/MM/DD/HH/轻松创建每小时目录,它会自动替换 YYYY、MM、DD 和 HH 作为间隔窗口的值。

如果您需要根据您的特定需求调整此模板,您可以查看 the source code of the template .

关于google-cloud-platform - Google Dataflow - 调度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51329540/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com