gpt4 book ai didi

hadoop - MapReduce 中映射器和缩减器任务的数量

转载 作者:可可西里 更新时间:2023-11-01 16:51:36 26 4
gpt4 key购买 nike

如果我将 reduce 任务的数量设置为类似 100 并且当我运行该作业时,假设 reduce 任务数量超过(根据我的理解,reduce 任务的数量取决于关键 -我们从映射器获得的值。假设我将 (1,abc)(2,bcd) 设置为映射器中的键值,reduce 任务的数量将为 2 ) MapReduce 将如何处理它?<​​/p>

最佳答案

as per my understanding the number of reduce tasks depends on the key-value we get from the mapper

你的理解好像是错误的。reduce任务的数量不依赖于我们从mapper得到的key-value。在 MapReduce 作业中,reducer 的数量可以在每个作业的基础上配置,并在驱动程序类中设置。

例如,如果我们的工作需要 2 个 reducer,那么我们需要在 MapReduce 工作的驱动程序类中设置它,如下所示:-

job.setNumReduceTasks(2);

In the Hadoop: The Definitive Guide book, Tom White states that - Setting reducer count is kind of art, instead of science.

所以我们必须决定我们的工作需要多少 reducer 。对于您的示例,如果您将中间 Mapper 输入作为 (1,abc) 和 (2,bcd) 并且您没有在驱动程序类中设置 reducer 的数量,那么默认情况下 Mapreduce 仅运行 1 个 reducer 和两个键值对将由单个 Reducer 处理,您将在指定的输出目录中获得单个输出文件。

关于hadoop - MapReduce 中映射器和缩减器任务的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32636357/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com