hadoop - hadoop2中的JobClient.java和JobSubmitter.java有什么区别？-6ren

hadoop - hadoop2中的JobClient.java和JobSubmitter.java有什么区别？

转载作者：行者123 更新时间：2023-12-02 21:35:56

25

4

其中哪个用于提交作业以在作业跟踪器中执行。如果可以解释在不同用例中如何同时使用这两个类，那就太好了。

最佳答案

问题1:JobClient

作业控制是通过新API中的Job类而不是旧类完成的
JobClient
Job是作业提交者对作业的看法。

它允许用户配置作业，提交作业，控制其执行以及查询状态。 set方法仅在提交作业之前有效，之后它们将抛出IllegalStateException。

通常，用户创建应用程序，通过Job描述作业的各个方面，然后提交作业并监视其进度。

问题 2: JobSubmitter
submit()上的Job方法创建一个内部JobSubmitter实例，并在其上调用submitJobInternal()。

提交作业后，waitForCompletion()每秒轮询一次作业的进度，并将进度报告给控制台。 job成功完成后，将显示作业计数器。否则，导致作业失败的错误将记录到控制台。
JobSubmitter实现的作业提交过程执行以下操作:

向资源管理器询问新的应用程序ID，该ID用于MapReduce job ID

检查作业的输出规范。例如，如果未指定输出目录或目录已经存在，则不提交作业，并且MapReduce程序会抛出错误。

计算作业的input splits。如果无法计算splits(例如，由于输入路径不存在)，则不会提交作业，并且会向MapReduce程序抛出错误。

复制运行作业所需的资源，包括作业JAR文件，
配置文件，然后将计算得到的输入拆分到以job ID命名的目录中的共享文件系统。

使用高复制因子(由mapreduce.client.submit.file.replication属性控制，默认为10)控制复制作业JAR，以便在集群中有很多副本供节点管理器在运行时访问工作任务。

通过在资源管理器

上调用 submitApplication()来提交作业
Hadoop : The defiinitive guide foruth edition是了解概念的最佳书籍之一

从代码结束，您可以从grepcode引用源代码:

Job:要检查的API: waitForCompletion() => submit() => jobClient.submitJobInternal
JobClient: submitJobInternal

关于hadoop - hadoop2中的JobClient.java和JobSubmitter.java有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32318212/

25

4

0

文章推荐： hadoop - mapreduce中的UserInputFormat类

文章推荐： hadoop - Pig:如何列出Hive分区以及如何向Hive添加新分区

文章推荐： hadoop - Hadoop 2.6多节点集群

java - Hadoop JobClient getJob方法执行时间太长
我正在尝试使用jobId从Hadoop 2.6.0集群中获取当前正在运行的作业。我输入了当前正在运行的Hadoop作业的jobId。我想使用RunningJob对象获取有关Hadoop作业的详细信息
hadoop - 等效YARN MRv2 JobClient
我找不到与MRv2等效的JobClient(Java，MRv1)。我正在尝试读取正在运行的作业的MR作业状态，计数器等。我必须从他相信的资源管理器中获取信息(因为“历史记录”服务器在作业结束前将没有信
hadoop - Hadoop JobClient.getQueues()不显示公平调度程序池
调用JobClient类的getQueues()方法似乎只返回“默认”队列，即使Fair Scheduler创建了其他池并正在运行作业。我想知道“池”和“队列”之间是否存在概念上的不匹配，但是为非默认
java - apache.hadoop.mapred.JobClient.runJob失败
我在Ubuntu中使用标准的单独mapreduce作业进行了测试。但是出现以下错误，然后失败。 conf.myconf是从conf.empty副本创建的 ubuntu@ip-172-31-20-2:
eclipse - #Crawl.run() -> #JobClient.runJob() 期间出现 IOException
我对 nutch 很陌生，所以请多多包涵。在我的一次测试爬网期间，我遇到了 IOException。我正在使用 nutch 1.6 和 hadoop 0.20.2 (在设置文件访问权限时选择此版本的
hadoop - WARN mapred.JobClient : No job jar file set. 可能找不到用户类
我的代码是 import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.a
java - Hadoop JobClient.runJob : Cannot initialize cluster - Misleading error message(? ) 和建议的解决方案
(我现在已经通过添加本文末尾指定的依赖项解决了这个问题，但想知道是否有更好的选择或者我是否遗漏了一些重要的东西？) 当尝试运行 mapreduce 作业时，行 JobClient.runJob(con
windows - mapred.JobClient : Error reading task output http:. .. 在 Windows 操作系统上从 Cygwin 运行 hadoop 时
我在 Windows 上运行来自 Cygwin 的“Mahout in Action”一书中的“从文档生成向量”样本。Hadoop 仅在本地计算机上启动。下面是我的运行命令: $ bin/mahou

首页

博学

6Ren·AI

商城

hadoop - hadoop2中的JobClient.java和JobSubmitter.java有什么区别？