gpt4 book ai didi

java - 在没有 jar 的情况下从 java 代码调用 hadoop 作业

转载 作者:可可西里 更新时间:2023-11-01 15:18:53 26 4
gpt4 key购买 nike

我使用这段代码来运行字数统计 hadoop 作业。当我使用 hadoop eclipse 插件从 eclipse 内部运行它时,WordCountDriver 运行。当我将 mapper 和 reducer 类打包为 jar 并将其放入类路径中时,WordCountDriver 也会从命令行运行。

但是,如果我尝试从命令行运行它而不将 mapper 和 reducer 类作为 jar 添加到类路径,尽管我将这两个类都添加到了类路径,但它会失败。我想知道 hadoop 是否有一些限制接受映射器和缩减器类作为普通类文件。创建一个 jar 总是强制性的吗?


public class WordCountDriver extends Configured implements Tool {



public static final String HADOOP_ROOT_DIR = "hdfs://universe:54310/app/hadoop/tmp";


静态类 WordCountMapper 扩展 Mapper {

私有(private)文本字=新文本();
private final IntWritable one = new IntWritable(1);

public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

字符串行 = value.toString();
StringTokenizer itr = new StringTokenizer(line.toLowerCase());
while (itr.hasMoreTokens()) {
word.set(itr.nextToken());
context.write(word, one);
}
}
};

静态类 WordCountReducer 扩展 Reducer {

public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException {

整数总和= 0;

对于(IntWritable 值:值){
总和 += 值.get();//过程值
}
context.write(key, new IntWritable(sum));
}
};


/**
*
*/
public int run(String[] args) 抛出异常 {

配置 conf = getConf();

conf.set("mapred.job.tracker", "universe:54311");

Job job = new Job(conf, "字数统计");

//指定输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);

//指定输入和输出目录
FileInputFormat.addInputPath(作业, 新路径(HADOOP_ROOT_DIR + "/input"));
FileOutputFormat.setOutputPath(job, new Path(HADOOP_ROOT_DIR + "/output"));

//指定映射器
job.setMapperClass(WordCountDriver.WordCountMapper.class);

//指定一个reducer
job.setReducerClass(WordCountDriver.WordCountReducer.class);
job.setCombinerClass(WordCountDriver.WordCountReducer.class);

job.setJarByClass(WordCountDriver.WordCountMapper.class);

返回 job.waitForCompletion(true) ? 0:1;
}

/**
*
* @param 参数
* @throws 异常
*/
public static void main(String[] args) 抛出异常 {
int res = ToolRunner.run(new Configuration(), new WordCountDriver(), args);
系统.exit(res);
}

}

最佳答案

尚不完全清楚您指的是哪个类路径,但最后,如果您在远程 Hadoop 集群上运行,您需要在一个 JAR 文件中提供所有类在 hadoop jar 执行期间发送到 Hadoop。您本地程序的类路径无关紧要。

它可能在本地运行,因为您实际上是在本地进程中运行一个 Hadoop 实例。因此,在那种情况下,它恰好能够在本地程序的类路径中找到这些类。

关于java - 在没有 jar 的情况下从 java 代码调用 hadoop 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9978307/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com