gpt4 book ai didi

hadoop - Sort 在 MapReduce 阶段用在什么地方,为什么?

转载 作者:可可西里 更新时间:2023-11-01 14:15:46 31 4
gpt4 key购买 nike

我是 hadoop 的新手。不清楚为什么我们需要在使用 hadoop mapreduce 时能够按键排序?在 map 阶段之后,我们需要将每个唯一键对应的数据分发给一定数量的 reducer。这可以在不需要排序的情况下完成,对吗?

最佳答案

它就在那里,因为排序是对键进行分组的巧妙技巧。当然,如果您的工作或算法不需要您的 key 的任何顺序,那么您可以更快地通过一些哈希技巧进行分组。

在 Hadoop 本身中,多年来已经有一个 JIRA 归档(source)。位于 Hadoop 之上的其他几个发行版已经具有这些功能,例如 Hanborq(他们称之为避免排序)。 ( source )

对于您的实际问题(为什么),MapReduce 本质上是来自 Google (source) 的一篇论文,其中陈述如下:

We guarantee that within a given partition, the intermediate key/value pairs are processed in increasing key order. This ordering guarantee makes it easy to generate a sorted output file per partition, which is useful when the output file format needs to support efficient random access lookups by key, or users of the output find it convenient to have the data sorted.

因此,支持排序更像是一个方便的决定,而不是固有地只允许对分组键进行排序。

关于hadoop - Sort 在 MapReduce 阶段用在什么地方,为什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11746311/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com