gpt4 book ai didi

sorting - hadoop streaming 是否在 map 和 reduce 阶段之间使用稳定的排序?

转载 作者:可可西里 更新时间:2023-11-01 16:34:40 45 4
gpt4 key购买 nike

这对多阶段作业有影响。例如,如果我们在作业的第 1 阶段按键“a”排序,在作业的第 2 阶段按键“b”排序(将第 1 阶段的输出作为标准输入),我们是否可以假设当两个阶段完成时记录是按键“b”排序,然后按键“a”排序?出于这个问题的目的,假设映射器和缩减器不排列记录顺序。还假设 reduce 任务的数量为 1 个或更多。

请记住,答案可能会因阶段 1 的 reduce 任务数量而异。例如,如果阶段 1 的 reduce 任务数量大于 1,则 key a 将被拆分到多个文件中(尽管在相对于每个文件的排序顺序)。然而,当只有一个 reduce 任务时,所有值都将出现在同一个文件中,这可能是稳定性的必要条件,具体取决于实现。

如果答案是肯定的,指向相应文档的链接将非常有帮助。

谢谢,

设置跳转

最佳答案

默认情况下,Hadoop 不会强制执行您想要的稳定排序属性。

Hadoop streaming 有 Comparator 和 Partitioner 来帮助对从 map 到 reduce 的结果进行排序;看看here

编辑:更新损坏的链接

关于sorting - hadoop streaming 是否在 map 和 reduce 阶段之间使用稳定的排序?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8579989/

45 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com