gpt4 book ai didi

hive - Hadoop合并文件

转载 作者:行者123 更新时间:2023-12-04 22:57:20 25 4
gpt4 key购买 nike

我已经运行了674个映射器的仅 map 工作,hive采取了这个操作,已经生成了674个.gz文件,我想将这些文件合并到30-35个文件中。已经尝试通过未获取合并的输出来配置hive megre mapfilse属性

最佳答案

尝试使用TEZ执行引擎,然后使用hive.merge.tezfiles。您可能还需要指定大小。

set hive.execution.engine=tez; -- TEZ execution engine
set hive.merge.tezfiles=true; -- Notifying that merge step is required
set hive.merge.smallfiles.avgsize=128000000; --128MB
set hive.merge.size.per.task=128000000; -- 128MB

如果您想使用 MR引擎,请添加以下设置(我个人没有尝试过)
set hive.merge.mapredfiles=true; -- Notifying that merge step is required
set hive.merge.smallfiles.avgsize=128000000; --128MB
set hive.merge.size.per.task=128000000; -- 128MB

上面的设置将产生一个进一步的步骤来合并文件,每个零件文件的大约大小应为128MB。

引用:
  • Settings description
  • 关于hive - Hadoop合并文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39810149/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com