gpt4 book ai didi

Hadoop 集群 - 如何知道每个 tasktracker 的理想最大 map/reduce 任务数

转载 作者:可可西里 更新时间:2023-11-01 16:16:19 26 4
gpt4 key购买 nike

我刚刚使用 Hadoop 0.20.205 设置了一个 Hadoop 集群。我有一个主机(NameNode 和 JobTracker)和另外两个盒子(从机)。

我试图了解如何定义要使用的 map 和 reduce 任务的数量。

到目前为止,我了解到我可以设置每个 TaskTracker 能够同时处理的最大 map 和 reduce 任务数:*mapred.tasktracker.map.tasks.maximum**mapred.tasktracker.reduce.tasks.maximum*.

此外,我还可以使用 *mapred.map.tasks* 定义整个集群可以同时运行的最大 map 任务数。是吗?

如果是这样,我怎么知道 *mapred.tasktracker.map.tasks.maximum* 的值应该是多少?我看到默认值为 2。但是为什么呢?增加或减少该值的优缺点是什么?

最佳答案

我不认为有这样的规则(比如设置 reducer 数量的规则)。

我所做的是,将映射器和缩减器的数量设置为每台机器的可用内核数减 1。直观上,这将为每台机器留出一些内存供其他进程使用(如集群通信)。但我可能错了。不管怎样,这是我从“Pro Hadoop”中找到的唯一东西。它建议使用与可用核心数量和一两个 reducer 数量一样多的映射器。希望对您有所帮助。

关于Hadoop 集群 - 如何知道每个 tasktracker 的理想最大 map/reduce 任务数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20341036/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com