MapReduce - 字数统计示例有什么好处-6ren

MapReduce - 字数统计示例有什么好处

转载作者：行者123 更新时间：2023-12-01 01:26:35

24

4

我试图了解 MapReduce 的好处是什么，我刚刚阅读了一些关于它的介绍。

他们都使用这个在大量文档中计算单词的规范示例，但我没有看到好处。以下是我目前的理解，如有错误请指正。

我们指定输入文件(文档)的列表。 MapReduce 库获取此列表并将其分配给集群中的处理器。处理器上的每个文档都被传递给 map 函数，在这种情况下，该函数返回一个对列表。

这是我有点不确定到底发生了什么的地方。
然后库软件搜索所有不同处理器上的结果集，并将具有相同单词(键)的这些对组合在一起。这些组在不同的处理器上收集，并在该处理器的每个组上调用 reduce。

然后在主节点上收集组合结果。

这是正确的解释吗？

我不明白的是，由于有必要对所有结果进行排序以对键进行分组，为什么不只计算同时找到的键，为什么需要 reduce 呢？当查找和组合公共(public) key 似乎需要大量工作时，此过程如何节省时间？

最佳答案

这是 YouTube Video 中的一个不错的视频关于 MapReduce 算法，如果您观看完整的 5 个视频系列，它将让您更清楚地了解 MapReduce 并回答您的大部分查询。

What I don't understand is, as it's necessary to sort through all the results to group keys, why not just count the keys it finds at the same time, why is reduce needed at all? How does this process save time when it seems like there is a lot of work to find and combine common keys?

因为单词计数示例中特定单词(如“sample”)的键/值对可能由不同的 map 任务发出，并将分布在不同的节点上，因此这些键/值对需要在发送到 reduce 任务之前进行合并/排序.特定键的 reduce task 在单个节点上运行并且不分布。

仅供引用，map 任务的结果使用与 map 任务在同一节点上的组合器类(与 reducer 类相同)进行组合，以减少 mapper 和 reducer 之间的网络聊天。

关于MapReduce - 字数统计示例有什么好处，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7438152/

24

4

0

文章推荐： python - 使用 python 将 newick 转换为 graphml

文章推荐： list - 在指定元素处拆分列表

文章推荐： javascript - 使用 javascript 创建累积对象

统计、机器学习和数据挖掘
我目前正在学习数据挖掘，有以下问题。机器学习和数据挖掘之间有什么关系？我发现许多数据挖掘技术都与统计相关，而我“听说”数据挖掘与机器学习有很多关系。所以我的问题是:机器学习与统计学密切相关吗？如
R 统计，将排名表更改为配对
我有很多表的数据，例如: event_id player finish 1 a 1 1 b 2 1 c
Nginx http_status_module 统计
我对 http_status_module 提供的统计数据感兴趣特别是上游部分的统计数据。 http://nginx.org/en/docs/http/ngx_http_status_module.
akka - Akka应用中的JMX监控/统计
除了 Cluster MBean 之外，是否有任何可以在 Akka (Java) 中启用的内置 JMX 公开监控/统计信息？我看过 Typesafe Console，但由于它需要许可证才能用于从多个节
c++ - “rusage” 统计
我正在尝试在我的程序中使用“usage”统计信息来获取类似于 time 的数据工具。但是，我很确定我做错了什么。这些值似乎是正确的，但有时可能有点奇怪。我没有在网上找到好的资源。有人知道如何做得更好吗
PHP、MySQL 统计
我有一个带有统计表的 MySQL 数据库。我想以年历、月度的形式输出数据。对于没有点击率的几个月，我想花费一个“空”DIV。有两个ID。 $query = mysqli_query($db,"SELE
python - 统计:优化python中的概率计算
设置: 问题是经典概率问题的复杂形式: 70 colored balls are placed in an urn, 10 for each of the seven rainbow colors.
Ruby 统计 gem
有哪些 Ruby gem 可以执行数据处理？最佳答案我知道有 3 种从 Ruby 访问 R 的方法: RinRuby RSRuby 通过 Rserve-Ruby-Client 预约 RinRuby
python实战之实现excel读取、统计、写入的示例讲解
背景图像领域内的一个国内会议快要召开了，要发各种邀请邮件，之后要录入、统计邮件回复（参会还是不参会等）。如此重要的任务，老师就托付给我了。ps: 统计回复邮件的时候，能知道谁参会或谁不参会。
java - 统计 ArrayList 中一定范围内的数字
我正在添加用户输入的几个数字并将它们添加到数组列表中。到目前为止我的代码: package project143; import java.util.*; /** * @author -- */
google-analytics - 离线应用程序的分析+统计？
正如标题所示，我需要做的是在各种 iO/Android/Windows 应用程序中跟踪各种用户事件 - 例如点击、滑动、在页面上花费的时间等。这些应用程序基于响应式 HTML/CSS/JS，并具有简
javascript - 统计 HTML 表中唯一值的实例
我希望计算 HTML 表中每个唯一值的实例数，并在其自己的表中返回结果。该表是根据用户的文本输入生成的。例如，用户输入可能如下所示: Report 46 Bob Marley 4/20/2
php 统计 z 分数正态分布
如何使用 PHP 计算数字数组的 z 分数？我需要计算 z 分数，然后找到百分位数 (CDF)!我可以使用哪些 PHP 函数？谢谢! 最佳答案以下代码将给出 CDF 的良好近似值(Abramowit
github - 统计 GitHub 上的空存储库数量
我只是想知道是否可以计算 GitHub 上空存储库的总数。如果不适合所有用户，可以为自己做吗？编辑我已经尝试过size:0搜索，但似乎返回了很多包含数据的存储库。采用 size:0..1 之类的
java - 统计 url 中的外部链接
public class Scanner { private HtmlProcessor hp; private String baseUrl; private int ste
java - 统计 Mule 流处理的请求数
我正在使用 Mule ESB 3.4。我想开发一个自定义 Java 组件来计算流收到的请求数量。流程将例如像这样: http inbound-endpoint -> counter -> vm-out
github - 统计 GitHub 上开放的拉取请求和问题
我喜欢借助 GitHub API 来统计存储库中所有开放的拉取请求和问题。我发现 API 端点 /repos/:owner/:repo 结果包含 open_issues 属性。然而，这是问题和拉取请求
php 统计 z 分数正态分布
如何使用 PHP 计算数字数组的 z 分数？我需要计算 z 分数，然后找到百分位数 (CDF)!我可以使用哪些 PHP 函数？谢谢! 最佳答案以下代码将给出 CDF 的良好近似值(Abramowit
c# - 统计 MongoDB 中的项目数
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
python - 统计 Google 新闻搜索结果
我正在尝试以编程方式获取搜索字词列表的 Google 新闻搜索结果计数(即有多少个结果)，但仅限于过去 1 年。使用用户界面搜索时，结果计数仅出现在常规搜索中，但在“工具 > 最近 > 过去一年”下时

首页

博学

6Ren·AI

商城

MapReduce - 字数统计示例有什么好处