gpt4 book ai didi

azure - gzip 压缩文件是否会在 Data Lake Analytics 中使用多个 AU?

转载 作者:行者123 更新时间:2023-12-03 01:45:21 27 4
gpt4 key购买 nike

在 EXTRACT 文档中,有对 gzip 压缩文件(我们正在使用的)的(很棒的)自动魔法支持。

但是我应该假设它不会使用多个 AU 吗?好像我理解正确一样,文件需要“可拆分”才能跨 AU 传播?

或者一旦即时提取,它是否会在 AU 之间拆分和/或 gzip 压缩文件是否有一个索引来指示它们可以以某种方式拆分的位置?

或者也许我混淆了 AU 的顶点概念?

最佳答案

这是一个好问题:)。

一般来说,如果文件格式是可拆分的(例如,基本上是面向行的,行小于行大小限制,目前为 4MB),那么大文件将被拆分为每个顶点 1GB。

但是,GZip 本身并不是可分割的格式。因此,我们无法在解压过程中拆分 GZip 文件,并且最终也不会拆分解压文件的处理(当前框架不提供此功能)。因此,我们将 GZip 文件的大小限制为 4GB。如果您想使用 GZip 文件进行横向扩展,我们建议将数据拆分为多个 GZip 文件,然后使用文件集进行横向扩展处理。

关于azure - gzip 压缩文件是否会在 Data Lake Analytics 中使用多个 AU?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47543092/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com