gpt4 book ai didi

hadoop - 组合器是否有条件地运行

转载 作者:可可西里 更新时间:2023-11-01 15:17:23 25 4
gpt4 key购买 nike

min.num.spills.for.combine(默认 3)

这是什么意思?

a) 最低编号 map 的溢出是为了让组合器运行?所以即使我们指定了一个组合器,它也不能保证运行?

b) 最低编号在组合器在通过 io.sort.factor 创建的合并/排序的单个文件上运行之前发生的溢出。因此,每次通过合并创建一个新文件时,组合器都会在其上运行,前提是没有。溢出量为 min 3

我觉得正确答案是 a) ,但任何人都可以证实这一点。

最佳答案

当map函数产生中间结果并首先将它们发送到buffer时,就会开始分区和排序,如果指定了combiner,此时会调用它。此过程与 map 功能并行。当 map 函数结束时,磁盘上的所有溢出都会被合并,此时也会调用组合器。

缓冲区阈值受 io.sort.spill.percent 限制,在此期间会产生溢出。如果溢出数超过 min.num.spills.for.combine,则在写入磁盘之前对创建的溢出调用组合器。

所以回答你的问题:你是对的,选择 a) .

引用:This邮件主题。

关于hadoop - 组合器是否有条件地运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17978506/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com