gpt4 book ai didi

azure-data-factory-2 - 有没有办法在多个映射数据流中重用单个运行的数据 block 集群

转载 作者:行者123 更新时间:2023-12-04 17:30:40 26 4
gpt4 key购买 nike

有没有办法重用之前由 Web 事件启动的数据块集群
我们运行映射数据流并在所有数据流中使用相同的运行集群,而不是让所有数据流实例启动它们
自己的集群,设置每个集群大约需要 6 分钟?

最佳答案

是的。将 Azure 集成运行时中“数据流属性”下的 TTL 设置为数据流作业执行之间存在间隔的时间量。这样,我们可以为您设置一个 VM 池并重用这些资源以最小化集群启动时间:https://techcommunity.microsoft.com/t5/azure-data-factory/adf-adds-ttl-to-azure-ir-to-reduce-data-flow-activity-times/ba-p/878380 .

要启动集群,请不要使用 Web 事件。使用我在此处演示的“虚拟”数据流:https://youtu.be/FFCbU4ujCiY?t=533 .

在 ADF 中,您无法访问底层计算引擎(在本例中为 Databricks),因此您必须启动一个虚拟数据流来对其进行预热。

该集群启动将需要 5-6 分钟。但是现在,如果您在后续事件中使用相同的 Azure IR,只要它们被安排在该 TTL 窗口内执行,ADF 就可以获取现有的 VM 资源来启动 Spark 集群并将您的数据流定义编码到 Spark作业执行。

端到端的这个过程现在应该只需要 2 分钟。

关于azure-data-factory-2 - 有没有办法在多个映射数据流中重用单个运行的数据 block 集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60033172/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com