hadoop - 关于此 map 的澄清减少字数示例？-6ren

hadoop - 关于此 map 的澄清减少字数示例？

转载作者：可可西里更新时间：2023-11-01 14:53:14

26

4

我正在学习map reduce，我有一个关于map reduce的基本字数统计例子的问题。假设我的文字是

My name is X Y X.

这里是 map 类，我指的是

  public static class MapClass extends MapReduceBase
implements Mapper<LongWritable, Text, Text, IntWritable> {

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(LongWritable key, Text value, 
                OutputCollector<Text, IntWritable> output, 
                Reporter reporter) throws IOException {
  String line = value.toString();
  StringTokenizer itr = new StringTokenizer(line);
  while (itr.hasMoreTokens()) {
    word.set(itr.nextToken());
    output.collect(word, one);
  }
}

当这个 Map 作业处理文本时，它会变成

My 1
name 1
is 1
X 1
Y 1
X 1

然后在洗牌和排序之后，所有相同的键将被分组，我们可以为最终计数做加法。在此示例中，将添加两个 X。

我的问题是，如果我通过保留单词和计数的 map 在 map 作业本身中进行添加，会怎样？然后迭代 map ，并将计数放入输出中。它会对 map 减少工作产生影响吗？输出仍然是一样的；但是，这样做会不会更有效率，因为用于 shuffle、sort 和 reducer 操作的条目会更少？

我在 map 作业中做加法的想法是否正确？

最佳答案

是的，您应该使 map 输出尽可能小。进行初步计数将减少通过系统移动的数据量。请注意，您仍然需要一个 reduce 作业来添加每个单词的计数，您的输入可以在 Y 处拆分，因此两个“X”单词将转到不同的映射器。

此外，您可以为 MapReduce 作业做的另一件高效的事情是使用 Combiners .这些是在映射步骤完成后立即在映射器节点上执行的减少步骤。因此，您可以进一步减少 Map 作业的输出。

关于hadoop - 关于此 map 的澄清减少字数示例？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30309443/

26

4

0

文章推荐： hadoop - TotalOrderPartitioner 给出错误的键类错误

文章推荐： c++ - 为什么::(scope) 与空的左侧操作数一起使用？

文章推荐： postgresql - 如何用Hadoop实时处理Postgres数据库？

文章推荐： c++ - `dynamic_cast` 从基础到派生

extjs 澄清
在此链接中:http://www.sencha.com/blog/spotlight-ext-js-customers/ 请滚动到部分:为什么我们选择 Ext JS 有这一行: By using Ex
opengl - glVertexAttribPointer 澄清
只是想确保我正确理解这一点(我会在 SO Chat 上问，但它已经死在那里了!): 我们有一个顶点数组，我们通过绑定(bind)它使其成为“当前” 然后我们有一个缓冲区，我们将其绑定(bind)到目标
java - 声明类的实例而不进行实例化和初始化 - 澄清
我正在学习与 Java Swing 一起使用的类(class)，但我遇到了障碍。在这个项目中，我们正在为不同的组件设置大小，但是，导师特意敲了一行我不太理解的代码，我只是在寻找这行代码概念的解释。基
Java HttpResponse 澄清
所以我尝试创建一个 HttpsRequest，效果非常好。问题是，我做错了什么，我认为这可能是因为我使用 HttpResponse，但我没有找到任何与 Https 类似的东西。有没有一种方法可以像 h
UML 关联类 - 澄清
我正在阅读 Martin Fowler 的“UML distilled”，在阅读关联类的过程中，我得到了这句话: What benefit do you gain with the associati
java - 字符串[][]澄清
我只是询问此说明: String[][] s = new String[2][2]; 如果我创建这个变量“s”，我会创建一个包含 2 行和 2 列的字符串表吗？或者 2 个表有 2 个元素？感谢您的澄
python - 时区偏移量的表达 - 澄清
我目前正在做的事情需要为世界各地的用户提供本地化时间。所有日期时间都存储为 UTC，因此转换它们非常容易，并且我们有一个已知的、安全的引用点等等。但是，关于如何表达偏移量的一些事情让我摸不着头脑。
java - Spring 澄清
我开始学习 spring，我遇到了一个定义，它说“Spring 使开发人员能够在没有应用程序服务器的情况下进行企业开发”。这到底是什么意思，使用应用服务器进行企业开发有什么危害。但是开发者在进行企
javascript - AngularJS开发环境-澄清
我是 AngularJS 的新手，对如何设置 angularJS 进行开发感到困惑。 Link1 link1 说我们需要 node.js 和一系列其他工具，这些工具必须在使用 AngularJS 之前
ios - 苹果应用程序内购买 - 澄清？
我是 iPhone 和 iPad 应用程序的开发者。我的一个应用程序是在线个人财务管理工具的配套应用程序，该工具通过网站提供其服务和功能。这些功能的一部分将通过我正在创建的原生 iOS 应用程序提供
c++ quaternion 澄清
我正在研究飞行模拟器。我读过一篇关于四元数的教程(这个:http://www.opengl-tutorial.org/intermediate-tutorials/tutorial-17-quater
c++ - 澄清 `this` 关键字
抱歉，如果这是一个微不足道的问题: 实现 1: class Foo { protected: int bar; public: Foo(int bar) {
澄清 C 中实现定义的行为
作为 C 中实现定义行为的示例。C 标准规定数据类型的大小是实现定义的。因此，假设 sizeof(int) 是实现定义的。此实现定义的行为是否意味着 size(int) 依赖于平台或由编译器供应商定
澄清 C 中内联函数的内部链接
从理论上讲，inline 函数在 C 语言中具有内部/静态链接，也就是说，它们仅在单个翻译单元内可见。因此，在两个单独的文件中定义的内联函数应该无法相互看到，并且两者都有自己的地址空间。我正在尝试使
C# - 转换 - 澄清
对于神童来说，这可能是一个非常基本的问题。但我对处理它有疑问。在转换期间我们使用: int.Parse(someThing) Convert.ToInt32 或 Convert.ToString()
android - 签名保护级别 - 澄清
这个问题在这里已经有了答案: Regarding Android Permissions and Signature Protection level (2 个答案) 关闭 8 年前。由于我是An
Javascript __proto__ - 澄清？
我有这个功能: 函数 Foo(){} 根据这张图片: >> Foo.prototype -> Foo {} 所以如果我写: Foo.prototype.constructor 现在 - 它引
c# - 等待和预防死锁 - 澄清？
我读了this article关于 Task.ConfigureAwait，它有助于防止异步代码中的死锁。看看这段代码:(我知道我不应该做 .Result ，但这是问题的一部分) private v
C# - 关闭 - 澄清
我正在学习 C#。我可以将闭包理解为一种可以适应其定义环境中的变化的结构吗。示例: List gurus = new List() {
java - Java中的volatile关键字-澄清
这个问题在这里已经有了答案: Difference between volatile and synchronized in Java (4 个回答) 关闭6年前。我对我读到的关于 volatile

首页

博学

6Ren·AI

商城

hadoop - 关于此 map 的澄清减少字数示例？