sorting - Map Reduce Programming中reducer中洗牌和排序阶段的目的是什么？-6ren

sorting - Map Reduce Programming中reducer中洗牌和排序阶段的目的是什么？

转载作者：可可西里更新时间：2023-11-01 14:06:11

25

4

在 Map Reduce 编程中，reduce 阶段有洗牌、排序和 reduce 作为其子部分。排序是一项代价高昂的事情。

在 Map Reduce 编程中，reducer 中的洗牌和排序阶段的目的是什么？

最佳答案

首先 shuffling 是将数据从 mappers 传输到 reducers 的过程，所以我认为这对 reducers 来说是必要的，否则他们将无法有任何输入(或来自每个映射器的输入)。洗牌甚至可以在映射阶段完成之前开始，以节省一些时间。这就是为什么本地图状态尚未达到 100% 时，您会看到减少状态大于 0%(但小于 33%)的原因。

排序 为 reducer 节省时间，帮助它轻松区分新的 reduce 任务何时应该开始。简而言之，当排序的输入数据中的下一个键与前一个不同时，它只是启动一个新的 reduce 任务。每个 reduce 任务都接受一个键值对列表，但它必须调用接受键列表(值)输入的 reduce() 方法，因此它必须按键对值进行分组。如果输入数据在 map 阶段预先排序(本地)并在 reduce 阶段简单地合并排序(因为 reducer 从许多映射器获取数据)，那么这样做很容易。

您在其中一个答案中提到的

Partitioning 是一个不同的过程。它确定将在哪个 reducer 中发送一个 (key, value) 对，即 map 阶段的输出。默认的 Partitioner 使用键的散列将它们分发到 reduce 任务，但您可以覆盖它并使用您自己的自定义 Partitioner。

这些步骤的重要信息来源是 Yahoo tutorial (archived)。

下面是一个很好的图形表示(随机播放在此图中称为“复制”):

请注意，如果您指定零化简器 (setNumReduceTasks(0))，则根本不会执行改组 和排序。然后，MapReduce 作业停止在 map 阶段，并且 map 阶段不包括任何类型的排序(因此即使 map 阶段更快)。

更新:由于您正在寻找更官方的东西，您还可以阅读 Tom White 的书“Hadoop:权威指南”。 Here是你的问题的有趣部分。
Tom White 自 2007 年 2 月以来一直是 Apache Hadoop 提交者，并且是 Apache 软件基金会的成员，所以我想它是相当可信和官方的...

关于sorting - Map Reduce Programming中reducer中洗牌和排序阶段的目的是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22141631/

25

4

0

文章推荐： c# - 从 Windows 文件夹中删除权限

文章推荐： file - 与其他格式相比， Parquet 格式的优缺点是什么？

文章推荐： windows - 用于 Windows 的 git-slave

文章推荐： windows - 如何处理 Windows 8 应用程序的屏幕旋转

C/我如何从这里到达第 2 阶段？它只是循环并直接进入第 3 阶段
这是贪吃蛇游戏的部分代码。我想做的是制作关卡(大约3个)，如果分数达到一定的分数(100或200)，关卡就会改变。在这段代码中，我尝试让分数达到 100 时进入第 2 阶段。但正如我编码的那样，它只
javascript - 阶段 - 我的图像无法加载
我是移相器新手。我开始看 youtube 系列，我首先有问题。我的背景图片无法加载。我有这个js代码 /* global Phaser */ var game = new Phaser.Game(12
javafx - 如何最小化靠近系统托盘的 javafx 阶段？
我有一个包含 2 个阶段的应用程序，我不希望用户关闭第二个阶段，只需将其图标化即可。目前我正在使用 oncloseRequest 处理程序来最小化窗口 - secondaryStage.setOnC
maintenance - 将网站更新从开发/阶段/测试环境推向生产的最佳实践是什么？
现在，我有一台运行服务器的基本LAMP配置。生产服务器是slicehost。但是我想知道将代码/数据库实例推送到阶段dev> stage> production的最佳方法是什么。它与您创建阶段的方式有
java - 阶段 : Not resizing to Scene
我在舞台上有一个场景。场景的宽度为 337.0 像素。但是，当我将它添加到舞台时，舞台的大小为 337.6 像素，由于 0.6 像素的差异，在屏幕的右边缘留下了一个白色间隙。我尝试使用 stage.
javafx-2 - 如何拖动JavaFX的未修饰窗口(阶段)
我有这个未修饰的窗口： public static void initStartPage(final Stage primaryStage) { final Stage startPa
maven - 执行特定的 Maven 阶段
有什么方法可以在 Maven 构建中执行特定阶段。例如，如果我只想运行那些在预集成阶段执行的插件，Maven 是否提供了一种方法来做到这一点？ e.g. mvn pre-integration-pha
jenkins - Jenkins 管道中的条件步骤/阶段
仅在构建特定分支时如何运行构建步骤/阶段？例如，仅当分支名为 deployment 时才运行部署步骤，其他所有内容保持不变。最佳答案在声明性管道语法中执行相同的操作，下面是一些示例: stage
hadoop - 配置单元查询无法启动 map 阶段
我有一个简单的查询，试图在Hive 0.14中运行: select sum(tb.field1), sum(tb.field2), tb.month from dbwork.mytable tb gr
Git 相当于 Mercurial 阶段？
在 Mercurial 中，我经常使用 secret 变更集来跟踪我对尚未准备好推送的内容的工作。然后，如果我需要对某些文件进行紧急更改，我可以更新到公共(public)修订版，进行更改并推送它，而不
Heroku + 插件提供商 Alpha 阶段
我一直在为 Heroku 的新附加组件工作，目前它是 alpha 阶段。因此，目前，我无法在我创建的应用程序上添加该附加组件，因为没有按钮可供我添加它。有人可以向我指出一些可以帮助我解决问题的资源吗？
java - 来自另一个线程的最小化 javafx 阶段
我有 2 个线程正在运行，一个正在监听 soket 等待命令，另一个启动 javafx 应用程序 public class GraphicInterface extends Application i
java - 如何关闭并图标化 JavaFx 阶段
在我的 Java Fx 应用程序中，我创建了两个阶段。第一阶段是主 Controller 类 HomeController 中的默认阶段。第二个 AddNewEmailController 是通过调用
java - 通过单个类管理不同的 JavaFX 阶段
我正在编写一个简单的 JavaFX 应用程序，它具有三个阶段:登录、注册 (Anmeldung) 和欢迎 (Anwendung)。抱歉采用德语命名! 我已经在 App 类中创建了每个舞台及其场景，在
jquery - 如何将表单重置为上次保存(通过ajax)阶段
问题是我正在使用 jQuery("form")[0].reset(); 在需要时重置表单。此方法正在将形式重置到初始阶段。这里初始阶段的意思是“表单第一次加载到页面时带有一些值的阶段”。但我需要的是
java - 强制执行 Maven 阶段
我有一个带有 pre-integration-test 和 post-integration-test 阶段的 Maven POM，如下所示。 start-server pre-in
ios - 调试 xcode 阶段？
我遇到一个错误，我已经为网络制作了一个 UIPageController，但我似乎无法找到它的问题，只有一个错误，请帮忙。代码如下 - 更多代码点播。 @interface ContentViewCo
javascript - 在不损失质量的情况下缩小 Konvajs 阶段
考虑在其中放置一些文本的大型 (2000x1000) 舞台。舞台缩小到 1000x500，使文本不可读。然后我们尝试通过放大来放大文本。预期:文本应该在某个时候再次变得可读。实际:无论我们放大多少
html - 如何在网页中居中 KineticJS 阶段
试图在网页中居中 KineticJS 阶段。尝试过: 但它集中在舞台的左侧，而不是舞台的中间。我错过了什么？最佳答案 margin:auto 可以对齐这个div中心关于htm
java - 无法处理部署的 POST_MODULE 阶段
我正在 jboss 中部署一个简单的 Web 应用程序，其中包含一个 servlet、一个 jsp 文件和一个 easy EJB。这是 servlet 的代码: package webejb; imp

首页

博学

6Ren·AI

商城

sorting - Map Reduce Programming中reducer中洗牌和排序阶段的目的是什么？