java - MapReduce 多个归约任务-6ren

java - MapReduce 多个归约任务

转载作者：行者123 更新时间：2023-12-02 22:01:05

27

4

我必须获取 Mapper 的输出并将其传递给我的 Reducer 4 次。

Reducer 是数据之间的合并。所以在 Mapper 之后，Reducer 在第一次迭代时合并一些数据，更改键和重新合并以及第二次迭代，等等......

我尝试使用 job.setNumReduceTasks(4)但什么也没发生。我只有 1 个输出和一个简单的 System.out.println()放置在我的 Reducer 中仅显示 1 条消息。

Job job = new Job(getConf());


job.setJarByClass(Driver.class);
job.setJobName(this.getClass().getName());

FileInputFormat.setInputPaths(job, new Path(input));
FileOutputFormat.setOutputPath(job, new Path(output+System.nanoTime()));

job.setMapperClass(KMMapper.class);

job.setReducerClass(KMReducer.class);
job.setNumReduceTasks(4);

job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(Text.class);

job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);

job.waitForCompletion(true);

- - - - - 编辑 - - - - -

Also, please update your question with possible i/p adn o/p

我必须实现一种新的数据聚类方式。

映射器是聚类算法，输出是聚类中点的键/列表。

每个 Reducer 将集群与相同的键进行比较，如果它们“相似”，则 reducer 将其合并。 reducer 选择新键，输出是新键/点列表。通过随机选择新 key 和大量迭代，将比较所有初始集群。

最佳答案

I have to take the output of my Mapper and pass it 4 times to my Reducer.

从上面的陈述中，我可以理解您的数据必须按顺序过滤/处理 4 次。做os，MapReduce提供了 ChainMapper或 ChainReducer .

使用 job.setNumReduceTasks(4);仅有助于并行运行 4-reducer 任务，基于默认的 key-partition 机制共享映射器输出(称为中间数据)。

从您问题的另一部分来看，可以引入自定义分区。因此，它们将键值对排列为值的键列表。然后，根据需要的过滤机制，在reducer中合并结果。

关于java - MapReduce 多个归约任务，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42224273/

27

4

0

文章推荐： java - 如何从Spark中的序列文件中提取行的范围？

文章推荐： javascript - "debug = require(' debug') ('api:server' )"是什么意思

文章推荐： sql-server - 统计每组返回的记录数

文章推荐： javascript - 在运行时动态更新 jQuery 时间选择器 minTime

python - 如何使用总和和最大日期进行映射/归约？
我有一个需要映射/缩减的文件，其中输出需要总和和日期的最大值。我有总和部分的工作，但是，我不确定如何将最大日期作为减少的输出的一部分。输入数据如下所示: ID1, ID2, date,
c - 以相同的优先级移位/归约
我必须为 C 的一个子集构建一个编译器。显然，因为这是我第一次做这样的事情，所以进展得不是很好。然而。我目前正在尝试为所述子集构建词法分析器和解析器。我决定逐步构建它，并在出现错误时进行修复。所以我
language-agnostic - 什么是映射/归约？
我听说过很多关于 Map/Reduce 的内容，尤其是在 Google 大规模并行计算系统的背景下。到底是什么？最佳答案来自 Google 的摘要 MapReduce研究发表页面: MapRedu
JavaScript 原生 groupBy 归约
我正在使用 JavaScript 原生 reduce，但是我想稍微改变分组以获得我想要的结果。我有一个数组如下: const people = [ {name: "John", age: 23,
mongodb - 简单映射/归约 MongoVUE
我试图让一个简单的 map reduce 在 MongoVUE 中工作，但它没有返回任何结果，我只是想让它输出每个 userID 的计数，这样我就可以有一个工作示例来构建。 function Map(
configuration - Hadoop:从 HDFS 映射/归约
我可能错了，但我见过的所有(？)Apache Hadoop 示例都将存储在本地文件系统上的文件作为输入(例如 org.apache.hadoop.examples.Grep) 有没有办法在 Hadoo
swift - 在 Swift 4 中使用索引进行映射/归约
如何在 Swift 4 中以更优雅的方式完成类似以下的事情，例如使用 map 和/或 reduce。为了在此处发布，我简化了代码，但请注意它确实需要使用索引。 var numbers = [50,

首页

博学

6Ren·AI

商城

java - MapReduce 多个归约任务