gpt4 book ai didi

java - 如何通过jobClient自动提交jar到hadoop

转载 作者:可可西里 更新时间:2023-11-01 15:40:03 24 4
gpt4 key购买 nike

我目前正在使用 maven 进行依赖管理。

在这种情况下,我编写了一个将 map-reduce 作业提交到 hadoop 的方法,然后为该方法编写了一个 junit 测试。

当我运行 mvn package 时它编译成功(所有依赖项都是正确的)它是单元测试失败了。

在作业跟踪器上,我可以看到一个 ClassNotFoundException 表示我的映射、组合和归约类在节点上找不到。

我不想使用 conf.setJar 手动设置这个 jar 文件的路径。

有什么方法可以让它自动运行吗?

最佳答案

您需要一种机制,使您的用户代码(映射器、组合器、缩减器类等)可用于 TaskTracker。这通常是通过将您的类捆绑到一个 jar 文件中然后使用 setJar/setJarByClass 方法来处理的。在幕后,hadoop 会将此 jar 上传到 HDFS 中的 tmp 作业目录,并将 tmp HDFS 作业 jar 添加到分布式缓存。

我的建议是将你的单元测试变成集成测试 - Maven 生命周期中的这个阶段发生在打包之后,你将拥有一个 jar,然后你可以通过它调用 setJar 并知道你将构建一个 jar(我猜这里您不想在普通测试阶段调用 setJar,因为 jar 尚未构建)。

最后,如果您想在不在真实集群中运行的情况下测试您的映射器/缩减器代码,您应该查看 MRUnit或在 hadoop 本地模式下运行作业 - 两者都不需要您构建 jar。

作为引用,这里有一个在本地模式下运行的最小 JUnit 片段,它可以在我的 Ubuntu 桌面上运行(如果您的桌面是 Windows,则需要安装 cygwin 或 unxutils)。这不是单元测试,因为它不断言输出:

@Test
public void testLocalRun() throws IOException, InterruptedException, ClassNotFoundException {
Job job = new Job();
job.setInputFormatClass(TextInputFormat.class);
FileInputFormat.setInputPaths(job,
"src/test/java/csw/hadoop/sandbox/LocalHadoopTest.java");
job.setOutputFormatClass(TextOutputFormat.class);
TextOutputFormat.setOutputPath(job, new Path(
"target/hadoop-local-output"));

job.setNumReduceTasks(0);

job.waitForCompletion(true);
}

关于java - 如何通过jobClient自动提交jar到hadoop,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17543823/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com