gpt4 book ai didi

Hive (1.1.0) - 在将数据加载到具有动态分区的 RC 表时获取小文件

转载 作者:行者123 更新时间:2023-12-05 07:00:57 25 4
gpt4 key购买 nike

我正在使用 insert into 命令将数据从 txt 表加载到 RC 表。目标表(RC)是分区表,因此启用了动态分区。在 insert into 命令结束时,我在每个分区中有多个小文件...我尝试为合并设置几个 Hive 参数,但结果或多或少是相同的...

唯一对我有用的是当我将 order by [any column] 添加到 insert into 命令时,在这种情况下,有一个 reduce 过程导致最终在每个分区中都有一个文件。

这就像丑陋的解决方法,我正在寻找一种更优雅的方法。

有什么建议吗?

谢谢

最佳答案

尝试添加 DISTRIBUTE BY <partition key(list)>而不是 ORDER BY ,它将按分区键对数据进行分组,最终 reducer 将处理每个分区,而不是每个 reducer 进程写入每个分区文件,并且工作速度将快于 ORDER BY .

关于Hive (1.1.0) - 在将数据加载到具有动态分区的 RC 表时获取小文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63977271/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com