gpt4 book ai didi

hadoop - 配置单元合并属性不适用于小文件

转载 作者:可可西里 更新时间:2023-11-01 14:36:50 24 4
gpt4 key购买 nike

我正在尝试将数据插入创建大量小文件的动态分区表,我已将配置单元属性设置如下,但我仍然在分区文件夹中看到小文件,每个任务的大小或平均文件大小似乎都有效对我来说,分区文件夹中的文件超过了我给的每个任务的大小。任何帮助将不胜感激hive.merge.mapfiles=true;配置单元合并 mapredfiles = truehive.merge.size.per.task=10000;hive.merge.smallfiles.avgsize=100;

最佳答案

您的示例显示您将平均大小设置为 100 字节,这将创建大量小文件并且很可能被忽略,因为文件已经大于该值。尝试将此值增加到平均 128MB(134217728),这平均会增加作业完成后要合并的文件的大小。

set hive.merge.smallfiles.avgsize = 134217728;

关于hadoop - 配置单元合并属性不适用于小文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36416925/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com