hadoop - map reduce 程序显示两个文件的交集-6ren

hadoop - map reduce 程序显示两个文件的交集

转载作者：可可西里更新时间：2023-11-01 16:16:24

26

4

Map Reduce 程序将两个文件作为输入并给出一组在两个文件中都存在的单词(两个文件的交集。)

我试过这样..

Map 函数:将文件作为输入并给出 (word, 1) 作为输出。我在一个名为 part-r-00000 的文件中得到了这个输出。这一步我对两个文件都做了，现在我有两个文件(两个 part-r-00000 文件。)

如何将此文件作为输入提供给 Reduce 函数..

并给我一些建议来为两个文件的交集编写reduce函数..

这是字数统计示例程序:

    package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
//import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class WordCountMap {

  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

 /* public static class IntSumReducer 
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  } */

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length != 2) {
      System.err.println("Usage: wordcount <in> <out>");
      System.exit(2);
    }
    Job job = new Job(conf, "word count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(TokenizerMapper.class);
   // job.setCombinerClass(IntSumReducer.class);
   // job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

Reducer 类在注释中，与 reducer 类相关的所有行都在注释中，但我仍然得到一个文件 part-r-00000.。输出是

海1这 1一个 1是 1是 1检查 1示例 1示例 1示例 1公平 1文件 1象头神 1哈多普 1怎么样 1马力 1是 1是 1是 1 map 1不是 1只有1个程序。 1个减少 1所以 1这 1这 1到 1你 1你 1

最佳答案

您应该在驱动程序代码中提到 job.setNumReduceTasks(0);。因此 part-r-00000 将不会创建。

我是这样测试的。使用 job.setNumReduceTasks(0); 并且没有 Reducer 逻辑然后 part-m-00000 生成创建没有 job.setNumReduceTasks(0); 和如果没有 Reducer 逻辑，则会生成 part-r-00000。

把这个放在上面并尝试确认。

关于hadoop - map reduce 程序显示两个文件的交集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20041662/

26

4

0

文章推荐： hadoop - 运行示例 wordcount "Exception in thread "main"

文章推荐： hadoop - 在 AMI 3.0.1 上运行弹性 mapreduce 流

MySQL 交集
我有一个现有站点，其数据库设计不正确并且包含大量记录，因此我们无法更改数据库结构。本期数据库主要包含用户、问题、选项、答案4个表。有一组标准的问题和选项，但对于每个用户，每组问题和选项在答案表中都有
iphone - CGPathRef 交集
有没有办法找出两个 CGPathRef 是否相交。就我而言，所有 CGPath 都有 closePath。例如，我有两条路径。一条路径是旋转一定角度的矩形，另一条路径是弯曲路径。两条路径的原点会经常
形状和多边形的 JavaFX 交集
我目前正在使用 JavaFX 研究不同形状之间的边界相交。我想检测两个多边形在它们的点上而不是在它们的边界上的碰撞(即 2 个多边形)。请参见图 1:不需要的行为和图 2:需要的行为。是否有任何现
三.js/交集
在我的three.js 场景中，我有一些立方体。我想为用户提供用鼠标选择框的可能性。这是重要的代码(我使用 Three.js 版本 69。): function init() { [...]
c++ - 几何、交集
我有一个问题。我想将四边形与四边形相交。 int main(){ typedef boost::geometry::model::point_xy TBoostPoint; typedef b
具有时间范围的 Mongodb 交集
在 MongoDB 中我们找到了交集的方法，但我们也想实现日期范围排除。让我解释一下。我们有每个支持团队的每日轮值表。每个支持团队可以每 15 分钟预订一次，持续 5-25 分钟(大约)。每个团队有
Python代码列表求并集,交集,差集
目录 1、列表求并集 1. union_by 2、列表求交集 1. intersection_by
sql - 有或没有不同的 oracle 交集
我有以下查询: select id from t1 intersect select id from t2 intersect select id from t3 id 在某些表中可能不是唯一的，所以
java - 需要求基本运算集并集/交集/对称差JAVA
需要完成此实现才能使用 UseSet 类。不确定我所实现的是否100%正确。但是我需要 Union 和 SysDiff 方面的帮助。 public class Set { private Ar
java - 优先级队列并集、交集、差异编译但不返回输出
我的程序打印主构造函数，但不返回 3 个底部函数，而是返回其编译结果。我哪里出错了？ import java.util.*; public class Main { public static v
2 个列表列表的 Prolog 交集
我正在尝试找到两个不同列表列表的交集。换句话说，找出 list1 中的所有列表是否与列表 2 中的任何列表相交。列表1: [[1,4],[1,6],[6,8],[8,10]] 列表2: [[],
java - BST 交集、NullPointerException
我正在尝试从 2 个已知 BST 的交集创建一个新的 BST。我在第二种情况下的 intersect2 方法中收到 NullPointerException，位于“cur3.item.set_acco
C 结构体 NxN 交集
这个问题已经有答案了: self referential struct definition? (9 个回答) 已关闭 7 年前。我有一个脚本 a.h #include b.h type
未使用 MySQL 复合索引(交集)
我在 user_profile 表上运行搜索，其中包含单个索引和复合索引: SELECT ••• FROM user_profile up JOIN auth_user
sql - 子查询中的 MySQL 交集
我正在尝试为(公寓)列表创建过滤器，通过 apartsments_features 表与 apartment features 建立多对多关系。我只想包括具有所有某些功能(在表格上标记为"is")的
Python - 列表的最大公共(public)交集
我想从两个给定的嵌套列表中创建一个新的嵌套列表(每个列表中都有唯一的项目)，以便新的嵌套列表是两个列表的最大公共(public)交集。一个例子希望能帮助阐明我的问题: old1 = [[1,
python - 相似属性上两个查询集的 Django 交集
我在 Django 中有两个模型，我不确定如何编写它们(是否有一个抽象模型并继承等等......或者有两个不同的模型)但通常我有两种类型的对象 A 和 B。 A 和 B 完全相同，因为它们只是项目。它
javascript - 解析数组的数组并返回公共(public)交集
我有一个像这样的数组 arrays = [ ['a', 'b', 'c', 'd'], ['a', 'b', 'c', 'g'], ['a',
java - 多边形的 Libgdx 交集
我正在通过向 Mario Zechner 的开源跳线游戏添加更多功能来学习 libgdx。我正在尝试制作一些带有角度的平台并遇到旋转矩形的碰撞检测问题。我关注了this解决方案并使用多边形和我的矩形
javascript - 将数组数组传递到 lodash 交集
我有一个包含对象的数组: let data = [[{a:0}, {b:1}], [{a:1}, {b:1}]] 现在我想制作一个 lodash intersection这两个数组，返回 [{b:1}

首页

博学

6Ren·AI

商城

hadoop - map reduce 程序显示两个文件的交集