gpt4 book ai didi

google-cloud-platform - 如何减少谷歌数据流作业中的初始化和终止时间?

转载 作者:行者123 更新时间:2023-12-01 04:45:45 27 4
gpt4 key购买 nike

我目前正在研究 POC,主要关注用于 ETL 处理的数据流。我已经使用 创建了管道Dataflow 2.1 Java Beam API , 仅初始化大约需要 3-4 分钟,每次运行终止大约需要 1-2 分钟。但是,实际转换 (ParDo) 所需时间不到一分钟。此外,我尝试通过以下不同的方法运行作业,

  • 在本地机器上运行作业
  • 在 GCP 上远程运行作业
  • 通过 Dataflow 模板运行作业

  • 但看起来,上述所有方法或多或少地消耗了相同的初始化和终止时间。因此,这是 POC 的瓶颈,因为我们打算每天运行数百个作业。

    我正在寻找一种方法来共享所有作业的初始化/终止时间,以便它可以是一次性事件或任何其他减少时间的方法。

    提前致谢!

    最佳答案

    据我所知,没有办法减少启动或拆卸时间。您不应该认为这是瓶颈,因为作业的每次运行都独立于最后一次运行,因此您可以并行运行它们等。如果这是消除的一种选择,您也可以考虑将其转换为流管道那些时代完全。

    关于google-cloud-platform - 如何减少谷歌数据流作业中的初始化和终止时间?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46710263/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com