gpt4 book ai didi

hadoop - 为什么在一个 Hadoop 作业中只使用 1 个 map 和 1 个 reduce 任务以及 1 个节点?

转载 作者:可可西里 更新时间:2023-11-01 15:16:28 26 4
gpt4 key购买 nike

我已经配置了一个 3 节点集群来运行 wordcount mapreduce 程序。我正在使用一本书,其大小为 659 kb ( http://www.gutenberg.org/ebooks/20417 ) 作为测试数据。有趣的是,在该作业的 Web UI 中,仅涉及 1 个 map、1 个 reduce 和 1 个节点。我想知道这是否是因为数据量太小。如果是,我可以手动设置将数据拆分到多个节点上的不同 map 吗?

谢谢,艾伦

最佳答案

默认 block 大小为 64 MB。所以是的,该框架确实只为每种类型分配一项任务,因为您的输入数据较小。

1) 您可以提供超过 64 MB 的输入数据,然后看看会发生什么。

2) 更改特定于 mapreduce 作业的 mapred.max.split.size 的值(在 mapred-site.xml 中或使用 -D mapred.max-split.size=noOfBytes 运行作业)或

3) 更改dfs.block.size 的值,它具有更大的全局范围并适用于所有HDFS。 (在 hdfs-site.xml 中)

如果您正在修改 conf 文件,请不要忘记重新启动集群以应用更改。

关于hadoop - 为什么在一个 Hadoop 作业中只使用 1 个 map 和 1 个 reduce 任务以及 1 个节点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20365437/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com