gpt4 book ai didi

Azure Synapse 加载 : Split large compress files to smaller compressed files

转载 作者:行者123 更新时间:2023-12-03 03:57:26 27 4
gpt4 key购买 nike

我从 Azure Synapse 收到此建议。

推荐详情我们检测到您可以通过拆分存储帐户中暂存的压缩文件来提高负载吞吐量。一个好的经验法则是将压缩文件拆分为 60 个或更多,以最大限度地提高负载的并行性。 Learn more

查看 Azure 的文档,这是建议。

Preparing data in Azure Storage
To minimize latency, colocate your storage layer and your SQL pool.

When exporting data into an ORC File Format, you might get Java out-of-memory errors when there are large text columns. To work around this limitation, export only a subset of the columns.

All file formats have different performance characteristics. For the fastest load, use compressed delimited text files. The difference between UTF-8 and UTF-16 performance is minimal.

Split large compressed files into smaller compressed files.

我想了解的是如何将大压缩文件拆分为较小的压缩文件?有这样的选择吗?谢谢!

最佳答案

您可以查看这篇文章How to maximize COPY load throughput with file splits .

建议使用 COPY 语句一次加载多个文件以进行并行处理,并最大限度地提高 SQL 池的批量加载性能。

以下 documentation 中概述了文件分割指南本博客介绍了如何使用 Azure 数据工厂在数据管道中映射数据流来轻松拆分驻留在数据湖中的 CSV 文件。

关于Azure Synapse 加载 : Split large compress files to smaller compressed files,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64025466/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com