gpt4 book ai didi

hadoop - 最后的 reducer 在MapReduce中非常慢

转载 作者:行者123 更新时间:2023-12-02 20:52:13 26 4
gpt4 key购买 nike

最后一次还原的速度非常慢。另一个减少
我的 map 和减少的数量如下
map 数为18784,缩小数为1500
每次减少的平均时间约为1'26,但最后一次减少约为2h
我尝试更改减少数量并减少工作量。但没有改变

the last reduce
至于我的分区

public int getPartition(Object key, Object value, int numPartitions) {
// TODO Auto-generated method stub
String keyStr = key.toString();
int partId= String.valueOf(keyStr.hashCode()).hashCode();
partId = Math.abs(partId % numPartitions);
partId = Math.max(partId, 0);
return partId;
//return (key.hashCode() & Integer.MAX_VALUE) % numPartitions;
}

最佳答案

我也有类似的经历,就我而言,这是因为只有一个reduce正在处理所有数据。这是由于数据偏斜而发生的。看一下已经处理过的reducer和花费大量时间的reducer,您可能会看到花费大量时间的reducer正在处理更多数据。

您可能需要调查一下。

Hadoop handling data skew in reducer

关于hadoop - 最后的 reducer 在MapReduce中非常慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45635067/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com