sorting - 我们真的需要在 MapReduce 框架中进行排序吗？-6ren

sorting - 我们真的需要在 MapReduce 框架中进行排序吗？

转载作者：可可西里更新时间：2023-11-01 14:32:40

25

4

我是 MapReduce 的新手，只是无法理解根据每个分区中的键对映射器输出进行排序的需要。最终我们想要的只是一个 reducer 被提供一个由几对 <key,List of Values> 组成的分区。并且每一对中的键不仅对于相应的分区是唯一的，而且对于馈送到不同 reducer 的所有分区也是唯一的。

为此需要做 sort在任何阶段。我们不能使用 hash table 吗？将对应于同一键的值分组？

将其分解为每个阶段。在映射器阶段，对于每个输出对，我们简单地散列键以找到分区号，然后我们将相应的对附加到属于同一分区的所有此类对的链表中。所以最后，单个映射器获得的输出将是 hashtable .其中对于每个分区号，我们都有一个链表 <key,value>没有基于键的顺序配对，即没有相似键值的位置。

然后来自不同 mapper 任务的分区被洗牌到一个 reducer。我们现在需要确保我们首先将对应于同一键的所有值分组(一种合并)，然后提供那些合并的 <key,List of Values> 对。到一个单独的 reducer 函数。在这里我们可以再次使用 hashtable为此，我们只需遍历所有分区，并将每个键映射到哈希表中的索引，并将相应的值附加到哈希表中的链表。与我们对每个映射器的输出进行排序的方法相比，这种方法不会节省更多时间吗？

我已经完成了 link (我目前无法对该线程发表评论，所以我写了一个单独的问题。)最上面的答案提到了

Sorting saves time for the reducer, helping it easily distinguish when a new reduce task should start. It simply starts a new reduce task, when the next key in the sorted input data is different than the previous, to put it simply. Each reduce task takes a list of key-value pairs, but it has to call the reduce() method which takes a key-list(value) input, so it has to group values by key. It's easy to do so, if input data is pre-sorted (locally) in the map phase and simply merge-sorted in the reduce phase (since the reducers get data from many mappers)

但是我们还是可以通过使用哈希表来做同样的事情，或者我们不能吗？

最佳答案

嗯，是的，只要所有内容都适合内存，您就可以使用哈希表。但是，一旦您处理的数据量超过计算机的内存容量，就会出现问题。

解决方案是将数据输出到磁盘文件中，并进行外部排序。

关于sorting - 我们真的需要在 MapReduce 框架中进行排序吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44344707/

25

4

0

文章推荐： windows - 在 Amazon EC2 实例上安装 Skype

文章推荐： r - sparklyr 看不到在 Hive 中创建的数据库，反之亦然

文章推荐：带有 docker swarm 的 Hadoop 集群

css - gumby 框架 CSS 框架
我需要开发一个简单的网站，我通常使用 bootstrap CSS 框架，但是我想使用 Gumbyn，它允许我使用 16 列而不是 12 列。我想知道是否: 我可以轻松地改变绿色吗？如何使用固定布局
php - 框架 - 什么是 PHP 框架？
这个问题在这里已经有了答案: 关闭 13 年前。与直接编写 PHP 代码相比，使用 PHP 框架有哪些优点/缺点？
java - 集成 Play 框架 2.0 和 Spring 框架
我开发了一个 Spring/JPA 应用程序:服务、存储库和域层即将完成。唯一缺少的层是网络层。我正在考虑将 Playframework 2.0 用于 Web 层，但我不确定是否可以在我的 Play
java - 如何将我的新 Spring 框架 Web 应用程序与启用了单点登录 (SSO) 的 Struts 框架 Web 应用程序链接
我现有的 struts Web 应用程序具有单点登录功能。然后我将使用 spring 框架创建一个不同的 Web 应用程序。然后想要使用从 struts 应用程序登录的用户来链接新的 spring 应
java - Java Web 框架(Ninja 和 Spark 框架)出现 MySQL unicode 错误
我首先使用Spark框架和ORMLite处理网页上表单提交的数据，在提交中文字符时看到了unicode问题。我首先想到问题可能是由于ORMLite，因为我的MySQL数据库的字符集已设置为使用utf8
c# - 如何在 .net 解决方案中有两个项目，一个针对 4.0 框架，另一个针对 4.5 框架？
我有一个使用 .Net 4.5 功能的模块，我们的应用程序也适用于 XP 用户。所以我正在考虑将这个 .net 4.5 依赖模块移动到单独的项目中。我怎样才能有一个解决方案，其中有两个项目针对不同的版
php - 将 Ajax/UI JS 框架(ext、jquery-ui)与 MVC PHP 框架(zend、symfony)结合起来是个好主意吗？
我知道这是一个非常笼统的问题，但我想我并不是真的在寻找明确的答案。作为 PHP 框架的新手，我很难理解它。 Javascript 框架，尤其是带有 UI 扩展的框架，似乎通过将 JS 代码与设计分开来
ORM 框架
我需要收集一些关于现有 ORM 解决方案的信息。请随意编写任何编程语言。你能谈谈你用过的最好的 ORM 框架吗？为什么它比其他的更好？最佳答案我使用了 NHibernate 和 Entity
iPhone 框架
除了 Apple 的 SDK 之外，还有什么强大的 iPhone 框架可供开始开发？有没有可以加快开发时间的方法？最佳答案此类框架最大的是Three20 。 Facebook 和许多其他公司都使用
JavaScript 框架
有人可以启发我使用 NodeJS 的 Web 框架吗？我最近开始从免费代码营学习express js，虽然一切进展顺利，但我对express到底是什么感到困惑。是全栈框架吗？纯粹是为了后端吗？我发现您
AJAX 框架
您可以推荐哪种 Ajax 框架/工具包来构建使用 struts 的 Web 应用程序的 GUI？最佳答案我会说你的 AJAX/javascript 库选择应该较少取决于你的后端是如何实现的，而更多
Python 框架
我有生成以下错误的 python 代码: objc[36554]: Class TKApplication is implemented in both /Library/Frameworks/Tk.
Karate 框架 - 如何使用声明的变量作为请求对象的参数？
首先，很抱歉，如果我问的问题很明显，因为我没有编程背景，那我去吧: 我想运行一系列测试场景并在背景部分声明了几个变量(我打印它们以仔细检查它们是否已正确声明)，第一个是整数，另外两个字符串为你可以看到
ffmpeg - 选择用于视频捕获和录制的库/框架
在我们承担的一个项目中，我们正在寻找一个视频捕获和录制库。我们的基础工作(基于 google 搜索)表明 vlc (libvlc)、ffmpeg (libavcodec) 和 gstreamer 是三
multithreading - 我该如何打断Play中的实时任务!框架
我试过没有运气的情况下寻找某种功能来杀死/中断Play中的正常工作!框架。我想念什么吗？还是玩了!实际没有添加此功能？最佳答案 Java stop类中没有像Thread方法那样的东西，由于种种原因
logging - 最小开销分布式事件日志库/框架？
我们希望在我们的系统中保留所有重大事件的记录。例如，在数据库可能存储当前用户状态的地方，事件日志应记录对该状态的所有更改以及更改发生的时间。事件记录工具应该尽可能接近于事件引发器的零开销，应该容纳结
ActionScript tdd 框架
那里有 ActionScript 2.0/3.0 的测试框架列表吗？最佳答案 2010-05-18 更新由于这篇文章有点旧，而且我刚刚收到了赞成票，因此可能值得提供一些更新的信息，这样人们就不会追
python - numpy数组的快速条件重叠窗口(框架)
我有一个巨大的 numpy 数组列表(一维)，它们是不同事件的时间序列。每个点都有一个标签，我想根据其标签对 numpy 数组进行窗口化。我的标签是 0、1 和 2。每个窗口都有一个固定的大小 M。
playframework - 配置变量在玩!框架
我是 Play 的新手!并编写了我的第一个应用程序。这个应用程序有一组它依赖的 URL，从 XML 响应中提取数据并返回有效的 URL。此应用程序需要在不同的环境(Dev、Staging 和 Pro
Scala CQRS 框架
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 4年前关闭。 Improve thi

首页

博学

6Ren·AI

商城

sorting - 我们真的需要在 MapReduce 框架中进行排序吗？