gpt4 book ai didi

google-cloud-dataprep - 如何链接多个 Google Cloud DataPrep 流程?

转载 作者:行者123 更新时间:2023-12-02 00:57:32 33 4
gpt4 key购买 nike

我在 Cloud DataPrep 中创建了两个流 - 第一个输出到 BigQuery 表,还创建了一个引用数据集。第二个流程获取引用数据集并在输出到第二个 BigQuery 表之前对其进行进一步处理。

是否可以安排这两个流程按顺序运行?目前我必须估计第一个流程所花费的时间,并安排第二个流程在第一个流程之后运行 XX 分钟。

在第一个流程中触发第二个流程的配方,或者按顺序安排它们的方法都是理想的。

This question展示了如何创建引用数据集,但没有解释是否可以自动/顺序运行它们。

最佳答案

引用数据集的文档在某种程度上暗示了这种行为,但可能会更清楚。

  • 使用第一个流作为引用数据集的第二个流将运行第一个流作业,因此将更新的数据用于流 2。
  • 但是到 BigQuery 的导出不会执行流 1 的导出。

最简单的解决方案(但不一定是您想要的)是可以选择在流程 2 中从流程 1 执行 BigQuery 导出,即有一个简单的配方,除了托管导出作业外什么都不做。

在配方/作业稳定的情况下,我使用的解决方案是运行生成的数据流作业,而不是使用 Dataprep 工具本身来执行:Run Job on Cloud Dataflow

您有几个选项可以安排这两个数据流作业。 (Cloud Scheduler 可能是一个不错的选择 - 它是一个新项目,我正在考虑替换我现在作为 Cloud Functions 托管的自定义解决方案)

然而,就按顺序运行它们而言,BigQuery 没有可以触发 Job2 的更新事件,因此您可以将它们安排得足够长,并希望 Job 1 尽快完成,或者您可以轮询 BigQuery 表元数据以查看修改日期是否发生变化。

关于google-cloud-dataprep - 如何链接多个 Google Cloud DataPrep 流程?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53224329/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com