gpt4 book ai didi

hadoop - reducer 占用 mapper 核心

转载 作者:可可西里 更新时间:2023-11-01 14:44:23 32 4
gpt4 key购买 nike

我在具有 88 个内核和 60 个 reducer 的 hadoop 集群上运行 mapreduce 作业。由于某种原因,它只使用了 79 个集群核心。开始时它运行 79 个映射器,但当完成一半拆分时,它使用 53 个映射器和 26 个缩减器,并且运行的映射器的数量后来继续减少,这增加了作业完成时间。日志显示这 26 个 reducer 正在复制计算数据。是否有可能让 hadoop 先运行所有映射器,然后再运行 reducer ?就像在 spark 或 tez 作业中一样,他们使用所有内核进行映射,然后使用所有内核进行缩减。

最佳答案

mapreduce.job.reduce.slowstart.completedmaps 设置为 1.0。引自 mapred-default.xml :

mapreduce.job.reduce.slowstart.completedmaps

0.05

Fraction of the number of maps in the job which should be complete before reduces are scheduled for the job.

关于hadoop - reducer 占用 mapper 核心,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39805840/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com