hadoop - 即使将映射器和化简器的数量设置为1，为什么配置单元仍将2个零件文件写入hdfs-6ren

hadoop - 即使将映射器和化简器的数量设置为1，为什么配置单元仍将2个零件文件写入hdfs

转载作者：行者123 更新时间：2023-12-02 19:46:58

我有一个配置单元插入覆盖查询-set mapred.map.tasks=1; set mapred.reduce.tasks=1; insert overwrite table staging.table1 partition(dt) select * from testing.table1;
在检查HDFS目录中的staging.table1时，我看到创建了2个零件文件。

2019-12-25 02:25 /data/staging/table1/dt=2019-12-24/000000_0
2019-12-25 02:25 /data/staging/table1/dt=2019-12-24/000001_0

为什么创建2个文件？

我正在使用beeline客户端和 hive 2.1.1-cdh6.3.1

最佳答案

您执行的insert查询是仅映射的，这意味着没有reduce任务。因此，没有必要设置mapred.reduce.tasks。

同样，映射器的数量由分割数决定，因此设置mapred.map.tasks不会改变映射器的并行性。

至少有两种可行的方法可以将文件总数强制为1:

强制执行发布作业以进行文件合并。
将hive.merge.mapfiles设置为true。好吧，默认值已经为true。
减少hive.merge.smallfiles.avgsize以实际触发合并。
合并后，将hive.merge.size.per.task增大为足够大的目标大小。

配置映射器的文件合并行为以减少映射器的数量。
确保将hive.input.format设置为org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，这也是默认设置。
然后增加mapreduce.input.fileinputformat.split.maxsize以允许更大的拆分大小。

关于hadoop - 即使将映射器和化简器的数量设置为1，为什么配置单元仍将2个零件文件写入hdfs，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59492366/

文章推荐： docker - 在Dockerfile中的容器内复制文件

文章推荐： hadoop - 无法访问 HBase Web UI

文章推荐： docker - 让webpack-dev-server在docker下工作

文章推荐： hadoop - Apache Accumulo安装

datetimepicker - 如何将 datetimepicker 月份名称格式设置为三位数，例如。简
我正在使用 Bootstrap 日期时间选择器。我想要 datetimepicker 格式作为短月份名称，例如。一月。我的代码在下面，它现在显示完整的月份名称为 January。如何让它成为 Jan
详解Mybatis极其(最)简(好)单(用)的一个分页插件
注意：这篇博客已经和当前的分页插件完全不一样了，所以建议大家通过上面项目地址查看最新的源码和文档来了解。以前为Mybatis分页查询发愁过，而且在网上搜过很多相关的文章，最后一个都没采用。在分页

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 即使将映射器和化简器的数量设置为1，为什么配置单元仍将2个零件文件写入hdfs