gpt4 book ai didi

hive - 当文件大于 block 大小时,如何减少 hive 中映射器的数量?

转载 作者:行者123 更新时间:2023-12-02 20:44:34 25 4
gpt4 key购买 nike

伙计们 我在hive中有一个表,有720多个分区,每个分区有400多个文件,文件平均大小为1G。

现在我执行以下 SQL:插入覆盖表 test_abc select * from DEFAULT.abc A WHERE A.P_HOUR ='2017042400' ;

此分区(P_HOUR ='2017042400')有 409 个文件。当我提交这个sql时,我得到以下输出

INFO:由于没有reduce 运算符,reduce 任务数设置为0信息:分割数:409

信息:提交作业的 token :job_1482996444961_9384015

我谷歌了很多文档来找到如何减少映射器的数量,很多文档在文件很小时解决了这个问题。 我已经在直线中尝试了以下设置,但不起作用---------------第一次

set mapred.min.split.size =5000000000;
set mapred.max.split.size =10000000000;
set mapred.min.split.size.per.node=5000000000;
set mapred.min.split.size.per.rack=5000000000;

-----------------第二次

set mapreduce.input.fileinputformat.split.minsize =5000000000;
set mapreduce.input.fileinputformat.split.maxsize=10000000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=5000000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=5000000000;

我的hadoop版本是Hadoop 2.7.2root 编译于 2016 年 7 月 11 日 10:58:45 hive 版本是连接到:Apache Hive(版本 1.3.0)驱动程序:Hive JDBC(版本1.3.0)

最佳答案

除了您帖子中的设置

set hive.hadoop.supports.splittable.combineinputformat=true;

hive.hadoop.supports.splittable.combineinputformat
- Default Value: false
- Added In: Hive 0.6.0
Whether to combine small input files so that fewer mappers are spawned.

关于hive - 当文件大于 block 大小时,如何减少 hive 中映射器的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43673843/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com