gpt4 book ai didi

azure - 为 Autoloader 选择什么样的节点 - Azure

转载 作者:行者123 更新时间:2023-12-03 02:06:29 26 4
gpt4 key购买 nike

好的,所以,我的自动加载器在目录列表模式下工作,因为事件驱动模式需要更高的权限,而我们在LIVE中无法做到这一点。

所以,自动加载器的作用基本上是:从着陆区(许多小文件)迭代地从许多不同的文件夹中读取 Parquet 文件,然后将它们写入原始容器作为 delta Lake ,并进行模式推断和演化,创建外部表并进行优化。

就是这样。

我的问题是:对于此工作负载,Azure 中集群的理想节点类型(工作线程和驱动程序)应该是什么?意思是“计算优化”、“存储优化”还是“内存优化”?

从此link ,我可以看到“计算优化”可能是最好的选择,但我想知道我的工作,大部分工作是读取登陆文件(许多小文件)并写入增量文件、检查点和模式,所以不应该存储优化在这里最好吗?

我打算尝试所有这些,但如果有人已经有指示,我将不胜感激。

顺便说一下,这里的存储是 Azure data Lake gen 2。

最佳答案

如果您不进行太多复杂的聚合,那么我建议您使用“计算优化”或“通用”节点来完成该工作 - 主要负载无论如何都是从文件中读取数据,然后将它们组合起来一起然后写入ADLS,所以这里CPU能力越强,数据处理速度就越快。

只有当您有太多小文件(考虑数万/数十万)时,您才可以考虑为驱动程序使用更大的节点,该驱动程序的角色将识别存储中的新文件。

关于azure - 为 Autoloader 选择什么样的节点 - Azure,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74731594/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com