hadoop - Sort 在 MapReduce 阶段用在什么地方，为什么？-6ren

hadoop - Sort 在 MapReduce 阶段用在什么地方，为什么？

转载作者：可可西里更新时间：2023-11-01 14:15:46

31

4

我是 hadoop 的新手。不清楚为什么我们需要在使用 hadoop mapreduce 时能够按键排序？在 map 阶段之后，我们需要将每个唯一键对应的数据分发给一定数量的 reducer。这可以在不需要排序的情况下完成，对吗？

最佳答案

它就在那里，因为排序是对键进行分组的巧妙技巧。当然，如果您的工作或算法不需要您的 key 的任何顺序，那么您可以更快地通过一些哈希技巧进行分组。

在 Hadoop 本身中，多年来已经有一个 JIRA 归档(source)。位于 Hadoop 之上的其他几个发行版已经具有这些功能，例如 Hanborq(他们称之为避免排序)。 ( source )

对于您的实际问题(为什么)，MapReduce 本质上是来自 Google (source) 的一篇论文，其中陈述如下:

We guarantee that within a given partition, the intermediate key/value pairs are processed in increasing key order. This ordering guarantee makes it easy to generate a sorted output file per partition, which is useful when the output file format needs to support efficient random access lookups by key, or users of the output find it convenient to have the data sorted.

因此，支持排序更像是一个方便的决定，而不是固有地只允许对分组键进行排序。

关于hadoop - Sort 在 MapReduce 阶段用在什么地方，为什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11746311/

31

4

0

文章推荐： java - 为什么将 Mapper 和 Reducer 类声明为静态的？

文章推荐： windows - IIS7 只允许访问本地网络

文章推荐： Hadoop 命令

C/我如何从这里到达第 2 阶段？它只是循环并直接进入第 3 阶段
这是贪吃蛇游戏的部分代码。我想做的是制作关卡(大约3个)，如果分数达到一定的分数(100或200)，关卡就会改变。在这段代码中，我尝试让分数达到 100 时进入第 2 阶段。但正如我编码的那样，它只
javascript - 阶段 - 我的图像无法加载
我是移相器新手。我开始看 youtube 系列，我首先有问题。我的背景图片无法加载。我有这个js代码 /* global Phaser */ var game = new Phaser.Game(12
javafx - 如何最小化靠近系统托盘的 javafx 阶段？
我有一个包含 2 个阶段的应用程序，我不希望用户关闭第二个阶段，只需将其图标化即可。目前我正在使用 oncloseRequest 处理程序来最小化窗口 - secondaryStage.setOnC
maintenance - 将网站更新从开发/阶段/测试环境推向生产的最佳实践是什么？
现在，我有一台运行服务器的基本LAMP配置。生产服务器是slicehost。但是我想知道将代码/数据库实例推送到阶段dev> stage> production的最佳方法是什么。它与您创建阶段的方式有
java - 阶段 : Not resizing to Scene
我在舞台上有一个场景。场景的宽度为 337.0 像素。但是，当我将它添加到舞台时，舞台的大小为 337.6 像素，由于 0.6 像素的差异，在屏幕的右边缘留下了一个白色间隙。我尝试使用 stage.
javafx-2 - 如何拖动JavaFX的未修饰窗口(阶段)
我有这个未修饰的窗口： public static void initStartPage(final Stage primaryStage) { final Stage startPa
maven - 执行特定的 Maven 阶段
有什么方法可以在 Maven 构建中执行特定阶段。例如，如果我只想运行那些在预集成阶段执行的插件，Maven 是否提供了一种方法来做到这一点？ e.g. mvn pre-integration-pha
jenkins - Jenkins 管道中的条件步骤/阶段
仅在构建特定分支时如何运行构建步骤/阶段？例如，仅当分支名为 deployment 时才运行部署步骤，其他所有内容保持不变。最佳答案在声明性管道语法中执行相同的操作，下面是一些示例: stage
hadoop - 配置单元查询无法启动 map 阶段
我有一个简单的查询，试图在Hive 0.14中运行: select sum(tb.field1), sum(tb.field2), tb.month from dbwork.mytable tb gr
Git 相当于 Mercurial 阶段？
在 Mercurial 中，我经常使用 secret 变更集来跟踪我对尚未准备好推送的内容的工作。然后，如果我需要对某些文件进行紧急更改，我可以更新到公共(public)修订版，进行更改并推送它，而不
Heroku + 插件提供商 Alpha 阶段
我一直在为 Heroku 的新附加组件工作，目前它是 alpha 阶段。因此，目前，我无法在我创建的应用程序上添加该附加组件，因为没有按钮可供我添加它。有人可以向我指出一些可以帮助我解决问题的资源吗？
java - 来自另一个线程的最小化 javafx 阶段
我有 2 个线程正在运行，一个正在监听 soket 等待命令，另一个启动 javafx 应用程序 public class GraphicInterface extends Application i
java - 如何关闭并图标化 JavaFx 阶段
在我的 Java Fx 应用程序中，我创建了两个阶段。第一阶段是主 Controller 类 HomeController 中的默认阶段。第二个 AddNewEmailController 是通过调用
java - 通过单个类管理不同的 JavaFX 阶段
我正在编写一个简单的 JavaFX 应用程序，它具有三个阶段:登录、注册 (Anmeldung) 和欢迎 (Anwendung)。抱歉采用德语命名! 我已经在 App 类中创建了每个舞台及其场景，在
jquery - 如何将表单重置为上次保存(通过ajax)阶段
问题是我正在使用 jQuery("form")[0].reset(); 在需要时重置表单。此方法正在将形式重置到初始阶段。这里初始阶段的意思是“表单第一次加载到页面时带有一些值的阶段”。但我需要的是
java - 强制执行 Maven 阶段
我有一个带有 pre-integration-test 和 post-integration-test 阶段的 Maven POM，如下所示。 start-server pre-in
ios - 调试 xcode 阶段？
我遇到一个错误，我已经为网络制作了一个 UIPageController，但我似乎无法找到它的问题，只有一个错误，请帮忙。代码如下 - 更多代码点播。 @interface ContentViewCo
javascript - 在不损失质量的情况下缩小 Konvajs 阶段
考虑在其中放置一些文本的大型 (2000x1000) 舞台。舞台缩小到 1000x500，使文本不可读。然后我们尝试通过放大来放大文本。预期:文本应该在某个时候再次变得可读。实际:无论我们放大多少
html - 如何在网页中居中 KineticJS 阶段
试图在网页中居中 KineticJS 阶段。尝试过: 但它集中在舞台的左侧，而不是舞台的中间。我错过了什么？最佳答案 margin:auto 可以对齐这个div中心关于htm
java - 无法处理部署的 POST_MODULE 阶段
我正在 jboss 中部署一个简单的 Web 应用程序，其中包含一个 servlet、一个 jsp 文件和一个 easy EJB。这是 servlet 的代码: package webejb; imp

首页

博学

6Ren·AI

商城

hadoop - Sort 在 MapReduce 阶段用在什么地方，为什么？