gpt4 book ai didi

azure - ADF 映射数据流 - 重用单个运行的 Spark 集群来并行执行映射数据流

转载 作者:行者123 更新时间:2023-12-03 01:29:31 24 4
gpt4 key购买 nike

我们在 ADF 中有一个复杂的 ETL,运行多个具有数据流事件的管道,以根据表依赖性加载数据仓库中的多个表。

由于运行具有相互依赖性的多个管道,多个数据流以一些顺序运行和一些并行运行的混合方式执行。看起来每个并行运行的数据流都会启动一个新的 Spark 集群,这导致我们的日常 ETL 运行成本急剧上升!

理想情况下,如果可能的话,我们希望 Spark 集群能够重用于所有并行数据流执行。有没有办法指定为并行数据流执行而创建的 Spark 集群的数量上限?

我们已经启用 TTL 10 分钟。

最佳答案

启用 TTL 后,请确保按顺序使用该 Azure IR 执行数据流,以免启动多个群集池。

要并行执行,请使用不带 TTL 的 Azure IR。

我们正在开发您上面提到的“最大并发”功能,希望尽快实现。

关于azure - ADF 映射数据流 - 重用单个运行的 Spark 集群来并行执行映射数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63634415/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com