gpt4 book ai didi

hadoop - 如何强制 hadoop 运行超过 1 个 Reduce 作业

转载 作者:可可西里 更新时间:2023-11-01 16:32:11 26 4
gpt4 key购买 nike

我有一个 5 节点的 Hadoop 集群,其中 2 个节点专用于数据节点并且还运行 tasktracker。

我像这样运行我的 hadoop 作业

sudo -u hdfs hadoop jar /tmp/MyHadoopJob2.jar com.abhi.MyHadoopJob2 -D mapred.reduce.tasks=2 /sample/cite75_99.txt /output3

作业成功运行,我可以看到正确的输出...但是现在当我转到门户网站时

http://jt1.abhi.com:50030

我能看见

enter image description here

因此只有 1 个 reduce 作业正在运行。

我之所以特别关注运行多个 reduce 作业,是因为我想确认即使在不同机器上运行不同的 reduce 作业实例时,hadoop 是否仍会创建一个完美排序的输出文件?

目前我的输出文件已完全排序,但这是因为只有 1 个 reducer 作业正在运行。

最佳答案

输出文件的数量将基于给定作业的 reducer 数量。但如果您的需求需要,您仍然可以将多个文件合并为一个文件。

要合并使用下面的 hadoop shell 命令

command> hadoop fs -getmerge <src> <localdst>
src: hdfs output folder path
localdst: local system path with filename(one file)

希望这可以澄清您的疑虑。

关于hadoop - 如何强制 hadoop 运行超过 1 个 Reduce 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25579043/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com