gpt4 book ai didi

memory - 为什么 EMR 实例没有像映射器那样多的缩减器?

转载 作者:可可西里 更新时间:2023-11-01 14:32:15 27 4
gpt4 key购买 nike

默认情况下,在 EMR 作业期间,实例配置为具有比映射器更少的缩减器。但是 reducer 没有任何额外的内存,所以看起来它们应该能够拥有相同的数量。 (例如,超大型高 cpu 实例有 7 个映射器,但只有 2 个缩减器,但映射器和缩减器都配置了 512 MB 可用内存)。

有谁知道这是为什么,有什么方法可以指定使用与映射器一样多的缩减器吗?

编辑:我的数量有误,是 512 MB

最佳答案

映射器从它们的输入流(映射器的标准输入)中提取数据,并且它们发出的内容要紧凑得多。该出站流(映射器的 STDOUT)随后也按键排序。因此,reducer 传入的数据更小、经过排序。

这几乎就是为什么任何 Hadoop MapReduce 集群(不仅仅是 EMR)的默认配置是映射器多于缩减器的原因,与 jobtracker 可用的内核数量成正比。

您可以通过 jobconf 参数控制映射器和缩减器的数量。配置变量是 mapred.map.tasks 和 mapred.reduce.tasks。

关于memory - 为什么 EMR 实例没有像映射器那样多的缩减器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10178071/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com