gpt4 book ai didi

hadoop - 为 mapreduce 洗牌和排序

转载 作者:可可西里 更新时间:2023-11-01 14:13:50 27 4
gpt4 key购买 nike

我通读了权威指南和网络上的其他一些链接,包括 here

我的问题是

where exactly does shuffling and sorting happen?

据我了解,它们发生在映射器和缩减器上。但是一些链接提到改组发生在映射器上,排序发生在缩减器上。

谁能证实我的理解是否正确;如果不能,他们能否提供我可以查看的其他文档?

最佳答案

随机播放:

MapReduce 保证每个 reducer 的输入都是按键排序的。系统执行排序并将 map 输出作为输入传输到 reducer 的过程称为洗牌。

排序:

排序发生在 MapReduce 程序的各个阶段,因此可以存在于 Map 和 Reduce 阶段。

请看这张图 enter image description here

在 Map 和 Reduce 阶段为上图添加更多描述。

map 方面:

当 map 函数开始产生输出时,它并不是简单地写入磁盘。在 Map 输出写入磁盘之前,线程首先将数据划分为与数据最终将发送到的 reducer 对应的分区。在每个分区内,后台线程执行内存中按键排序

减少方面:

当所有 map 输出都被复制后,reduce 任务进入排序阶段(应该称为合并阶段,因为排序是在 map 端执行的),合并 map 输出,维护它们排序排序。这将分轮进行。

来源:Hadoop 权威指南。

关于hadoop - 为 mapreduce 洗牌和排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39562643/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com