gpt4 book ai didi

hadoop - HDFS 中参数 "mapred.min.split.size"的行为

转载 作者:可可西里 更新时间:2023-11-01 14:14:15 24 4
gpt4 key购买 nike

参数“mapred.min.split.size”改变了之前写入文件的 block 的大小?假设我在开始 JOB 时传递值为 134217728 (128MB) 的参数“mapred.min.split.size”。关于发生的事情,正确的说法是什么?

1 - 每个 MAP 处理相当于 2 个 HDFS block (假设每个 block 64MB);

2 - 我的输入文件(以前包含HDFS)将有一个新的分区,以占用HDFS 128M中的 block ;

最佳答案

split size的计算公式:-

max(mapred.min.split.size, min(mapred.max.split.size, dfs.block.size))

在您的情况下,它将是:-

split size=max(128,min(Long.MAX_VALUE(default),64))

所以以上推论:-

  1. 每个映射将处理 2 个 hdfs block (假设每个 block 64MB):True

  2. 我的输入文件(之前包含HDFS)会有一个新的分区占用HDFS 128M中的 block :False

但使最小分割大小大于 block 大小会增加分割大小,但会以局部性为代价。

关于hadoop - HDFS 中参数 "mapred.min.split.size"的行为,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19188315/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com