gpt4 book ai didi

java - Hadoop - 如何收集没有值的文本输出

转载 作者:可可西里 更新时间:2023-11-01 14:45:55 24 4
gpt4 key购买 nike

我正在处理 map reduce 作业,我想知道是否可以将自定义字符串发送到我的输出文件。没有计数,没有其他数量,只有一团文字。

这是我的基本想法

public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {
// this map doesn't do very much
String line = value.toString();
word.set(line);
// emit to map output
output.collect(word,one);

// but how to i do something like output.collect(word)
// because in my output file I want to control the text
// this is intended to be a map only job
}
}

这种事情可能吗?这是创建一个 map only 作业来转换数据,使用 hadoop 的并行性,但不一定是整个 MR 框架。当我运行这个作业时,我在 hdfs 中为每个映射器得到一个输出文件。

$ hadoop fs -ls /Users/dwilliams/output
2013-09-15 09:54:23.875 java[3902:1703] Unable to load realm info from SCDynamicStore
Found 12 items
-rw-r--r-- 1 dwilliams supergroup 0 2013-09-15 09:52 /Users/dwilliams/output/_SUCCESS
drwxr-xr-x - dwilliams supergroup 0 2013-09-15 09:52 /Users/dwilliams/output/_logs
-rw-r--r-- 1 dwilliams supergroup 7223469 2013-09-15 09:52 /Users/dwilliams/output/part-00000
-rw-r--r-- 1 dwilliams supergroup 7225393 2013-09-15 09:52 /Users/dwilliams/output/part-00001
-rw-r--r-- 1 dwilliams supergroup 7223560 2013-09-15 09:52 /Users/dwilliams/output/part-00002
-rw-r--r-- 1 dwilliams supergroup 7222830 2013-09-15 09:52 /Users/dwilliams/output/part-00003
-rw-r--r-- 1 dwilliams supergroup 7224602 2013-09-15 09:52 /Users/dwilliams/output/part-00004
-rw-r--r-- 1 dwilliams supergroup 7225045 2013-09-15 09:52 /Users/dwilliams/output/part-00005
-rw-r--r-- 1 dwilliams supergroup 7222759 2013-09-15 09:52 /Users/dwilliams/output/part-00006
-rw-r--r-- 1 dwilliams supergroup 7223617 2013-09-15 09:52 /Users/dwilliams/output/part-00007
-rw-r--r-- 1 dwilliams supergroup 7223181 2013-09-15 09:52 /Users/dwilliams/output/part-00008
-rw-r--r-- 1 dwilliams supergroup 7223078 2013-09-15 09:52 /Users/dwilliams/output/part-00009

如何在 1 个文件中获取结果?我应该使用 identity reducer 吗?

最佳答案

1. 要实现output.collect(word),您可以使用 Class NullWritable 。为此,您必须在 Mapper 中使用 output.collect(word, NullWritable.get())。请注意,NullWritable 是 Singleton。

2. 如果您不想拥有多个文件,您可以将 reducer 的数量设置为 1。但这会产生额外的开销,因为这将涉及通过网络进行大量数据混洗。原因是,Reducer 必须从运行 Mappers 的不同机器上获取它的输入。此外,所有负载将只分配给一台机器。但是如果你只想要一个输出文件,你绝对可以使用一个 mReducer。 conf.setNumReduceTasks(1) 应该足以实现这一目标。

几个小建议:

  • 我不建议您使用 getmerge,因为它会将生成的文件复制到本地文件系统。因此,您必须将其复制回 HDFS 才能进一步使用它。
  • 如果可能,请使用新的 API。

关于java - Hadoop - 如何收集没有值的文本输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18814359/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com