gpt4 book ai didi

hadoop - 了解 Hadoop MapReduce 中映射和 reduce task 的数量

转载 作者:可可西里 更新时间:2023-11-01 15:26:54 27 4
gpt4 key购买 nike

假设 hadoop 系统中的一个节点有 8GB 内存可用。

如果任务跟踪器和数据节点消耗 2GB,如果每个任务所需的内存为 200MB,那么可以启动多少个 map 和 reduce?

8-2 = 6GB

所以,6144MB/200MB = 30.72

因此,将启动总共 30 个 map 和 reduce 任务。

我是对的还是我漏掉了什么?

最佳答案

映射器和缩减器的数量不是由可用资源决定的。您必须通过调用 setNumReduceTasks() 在代码中设置 reducer 的数量。

对于mappers的个数,比较复杂,因为是Hadoop设置的。默认情况下,每个输入拆分大约有一个 map task 。您可以通过更改默认 block 大小、记录阅读器、输入文件数来调整它。

您还应该在 hadoop 配置文件中设置同时运行的 map 任务和 reduce 任务的最大数量,以及分配给每个任务的内存。最后两个配置是基于可用资源的配置。请记住,map 和 reduce 任务在您的 CPU 上运行,因此您实际上受到可用内核数量的限制(一个内核不能同时运行两个任务)。

This guide可能会帮助您了解更多细节。

关于hadoop - 了解 Hadoop MapReduce 中映射和 reduce task 的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43632080/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com