- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我是 map Reduce 和 hadoop 概念的新手。所以请帮忙
我有将近 100 个文件包含这种格式的数据
conf/iceis/GochenouerT01a:::John E. Gochenouer::Michael L. Tyler:::Voyeurism, Exhibitionism, and Privacy on the Internet.
我应该通过 map reduce 算法来完成。现在在我要显示的输出中
John E. Gochenoue Voyeurism .
John E. Gochenoue Exhibitionism
John E. Gochenoue and
John E. Gochenoue privacy
John E. Gochenoue on
John E. Gochenoue the
John E. Gochenoue internet
Michael L. Tyler Voyeurism .
Michael L. Tyler Exhibitionism
Michael L. Tyler and
Michael L. Tyler privacy
Michael L. Tyler on
Michael L. Tyler the
Michael L. Tyler internet
所以现在它是单行的。所以有 'n' 行这样包含大量名称和大量书籍的行。
因此,如果我考虑一个包含 110 行的文档。我可以像这样输出我的映射器吗
John E. Gochenoue Voyeurism 1
John E. Gochenoue Exhibitionism 3
Michael L. Tyler on 7
即说它显示名称和作品,然后是文档中单词的出现,最后在 reduce 之后,它应该显示名称,后面是名称反对它的词,以及它在 'n 中出现的词的组合频率' 文档。
我知道 output.collecter() 但它需要两个参数
output.collect(arg0, arg1)
有什么方法可以收集name、word、word occourence这三个值
下面是我的代码
public static class Map extends MapReduceBase implements
Mapper<LongWritable, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();
public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
String line = value.toString();
/*
* StringTokenizer tokenizer = new StringTokenizer(line); while
* (tokenizer.hasMoreTokens()) { word.set(tokenizer.nextToken());
* output.collect(word, one);
*/
String strToSplit[] = line.split(":::");
String end = strToSplit[strToSplit.length - 1];
String[] names = strToSplit[1].split("::");
for (String name : names) {
StringTokenizer tokens = new StringTokenizer(end, " ");
while (tokens.hasMoreElements()) {
output.collect(arg0, arg1)
System.out.println(tokens.nextElement());
}
}
}
}
public static class Reduce extends MapReduceBase implements
Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
}
public static void main(String[] args) throws Exception {
JobConf conf = new JobConf(example.class);
conf.setJobName("wordcount");
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
conf.setMapperClass(Map.class);
conf.setCombinerClass(Reduce.class);
conf.setReducerClass(Reduce.class);
conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);
FileInputFormat.setInputPaths(conf, "/home/vishal/workspace/hw3data");
FileOutputFormat.setOutputPath(conf,
new Path("/home/vishal/nmnmnmnmnm"));
JobClient.runJob(conf);
}
最佳答案
诀窍是编写一个文本(hadoop 可写实现之一),其字符串内容是许多制表符分隔值。这就是您可以轻松地在映射器和缩减器之间传递复杂值的方式。
当然,更具工业实力的做法是自己写Writable。可写对象基本上是具有特殊序列化/反序列化行为的 pojo。在这种情况下,您的可写对象将具有三个属性。
关于hadoop - 如何在映射器输出中收集三个参数。有什么办法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13288877/
我之前让 dll 注入(inject)器变得简单,但我有 Windows 7,我用 C# 和 C++ 做了它,它工作得很好!但是现在当我在 Windows 8 中尝试相同的代码时,它似乎没有以正确的方
我正在尝试制作一个名为 core-splitter 的元素,该元素在 1.0 中已弃用,因为它在我们的项目中起着关键作用。 如果您不知道 core-splitter 的作用,我可以提供一个简短的描述。
我有几个不同的蜘蛛,想一次运行所有它们。基于 this和 this ,我可以在同一个进程中运行多个蜘蛛。但是,我不知道如何设计一个信号系统来在所有蜘蛛都完成后停止 react 器。 我试过了: cra
有没有办法在达到特定条件时停止扭曲 react 器。例如,如果一个变量被设置为某个值,那么 react 器应该停止吗? 最佳答案 理想情况下,您不会将变量设置为一个值并停止 react 器,而是调用
https://code.angularjs.org/1.0.0rc9/angular-1.0.0rc9.js 上面的链接定义了外部js文件,我不知道Angular-1.0.0rc9.js的注入(in
我正在尝试运行一个函数并将服务注入(inject)其中。我认为这可以使用 $injector 轻松完成.所以我尝试了以下(简化示例): angular.injector().invoke( [ "$q
在 google Guice 中,我可以使用函数 createInjector 创建基于多个模块的注入(inject)器。 因为我使用 GWT.create 在 GoogleGin 中实例化注入(in
我在 ASP.NET Core 1.1 解决方案中使用配置绑定(bind)。基本上,我在“ConfigureServices Startup”部分中有一些用于绑定(bind)的简单代码,如下所示: s
我在 Spring MVC 中设置 initBinder 时遇到一些问题。我有一个 ModelAttribute,它有一个有时会显示的字段。 public class Model { privat
我正在尝试通过jquery post发布knockoutjs View 模型 var $form = $('#barcodeTemplate form'); var data = ko.toJS(vm
如何为包含多态对象集合的复杂模型编写自定义模型绑定(bind)程序? 我有下一个模型结构: public class CustomAttributeValueViewModel { publi
您好,我正在尝试实现我在 this article 中找到的扩展方法对于简单的注入(inject)器,因为它不支持开箱即用的特定构造函数的注册。 根据这篇文章,我需要用一个假的委托(delegate)
你好,我想自动注册我的依赖项。 我现在拥有的是: public interface IRepository where T : class public interface IFolderReposi
我正在使用 Jasmine 测试一些 Angular.js 代码。为此,我需要一个 Angular 注入(inject)器: var injector = angular.injector(['ng'
我正在使用 Matlab 代码生成器。不可能包含代码风格指南。这就是为什么我正在寻找一个工具来“ reshape ”、重命名和重新格式化生成的代码,根据我的: 功能横幅约定 文件横幅约定 命名约定 等
这个问题在这里已经有了答案: Where and why do I have to put the "template" and "typename" keywords? (8 个答案) 关闭 8
我开发了一种工具,可以更改某些程序的外观。为此,我需要在某些进程中注入(inject)一个 dll。 现在我基本上使用这个 approach .问题通常是人们无法注入(inject) dll,因为他们
我想使用 swing、spring 和 hibernate 编写一个 java 应用程序。 我想使用数据绑定(bind)器用 bean 的值填充 gui,并且我还希望它反射(reflect) gui
我有这段代码,当两个蜘蛛完成后,程序仍在运行。 #!C:\Python27\python.exe from twisted.internet import reactor from scrapy.cr
要点是 Spring Batch (v2) 测试框架具有带有 @Autowired 注释的 JobLauncherTestUtils.setJob。我们的测试套件有多个 Job 类提供者。因为这个类不
我是一名优秀的程序员,十分优秀!