gpt4 book ai didi

hadoop - Mapper Combiner patitioner shuffle/sort 顺序

转载 作者:可可西里 更新时间:2023-11-01 15:34:25 24 4
gpt4 key购买 nike

我在 Definite Guide: Hadoop in pg 206 中有以下文字。

在写入磁盘之前,线程首先将数据划分为对应的分区到他们最终将被发送到的 reducer 。在每个分区内,后台线程按键执行内存中排序,如果有组合器功能,它在排序的输出上运行。运行 combiner 函数可以得到更多紧凑的 map 输出,因此写入本地磁盘和传输到的数据较少 reducer 。

那么有了这个理解,我可以排序为Mapper,partitioner,shuffle/sort,Combiner的顺序吗?

最佳答案

我写了一篇关于此的好文章:http://0x0fff.com/hadoop-mapreduce-comprehensive-description/总的来说你是对的,但特别是有更多的极端情况 - 一些记录可能会省略组合器,对于其中一些它可能会运行很多次,甚至组合器可能会在减少之前启动 reducer 。所以总的来说你是对的,但事情要复杂得多

关于hadoop - Mapper Combiner patitioner shuffle/sort 顺序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27790601/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com