gpt4 book ai didi

apache-spark - 集群部署模式下的 spark-submit 将应用程序 ID 获取到控制台

转载 作者:行者123 更新时间:2023-12-04 05:12:18 25 4
gpt4 key购买 nike

我遇到了一个需要快速解决的问题。我浏览了很多关于 spark 集群部署模式的帖子和教程,但我对这种方法一无所知,因为我被困了几天。

我的用例:- 我有很多使用“spark2-submit”命令提交的 spark 作业,一旦提交,我需要在控制台中打印应用程序 ID。 spark 作业是使用集群部署模式提交的。 (在普通客户端模式下,它被打印出来)

创建解决方案时我需要考虑的要点:- 我不应该更改代码(因为这会花费很长时间,因为有很多应用程序正在运行),我只能提供 log4j 属性或一些自定义编码。

我的方法:-

1) 我已经尝试更改 log4j 级别和各种 log4j 参数,但日志记录仍然转到集中日志目录。

我的 log4j.properties 的一部分:-

log4j.logger.org.apache.spark.scheduler.cluster.YarnClusterSchedulerBackend=ALL,console
log4j.appender.org.apache.spark.scheduler.cluster.YarnClusterSchedulerBackend.Target=System.out

log4j.logger.org.apache.spark.deploy.SparkSubmit=ALL
log4j.appender.org.apache.spark.deploy.SparkSubmit=console

log4j.logger.org.apache.spark.deploy.SparkSubmit=TRACE,console
log4j.additivity.org.apache.spark.deploy.SparkSubmit=false

log4j.logger.org.apache.spark.deploy.yarn.Client=ALL
log4j.appender.org.apache.spark.deploy.yarn.Client=console


log4j.logger.org.apache.spark.SparkContext=WARN
log4j.logger.org.apache.spark.scheduler.DAGScheduler=INFO,console

log4j.logger.org.apache.hadoop.ipc.Client=ALL

2) 我还尝试添加自定义监听器,并且我能够在应用程序完成后获取 spark 应用程序 ID,但无法控制台。

代码逻辑:-

public void onApplicationEnd(SparkListenerApplicationEnd arg0) 
{
for (Thread t : Thread.getAllStackTraces().keySet())
{
if (t.getName().equals("main"))
{
System.out.println("The current state : "+t.getState());

Configuration config = new Configuration();

ApplicationId appId = ConverterUtils.toApplicationId(getjobUId);

// some logic to write to communicate with the main thread to print the app id to console.
}
}
}

3) 我已将 spark.eventLog 启用为 true 并在 HDFS 中指定了一个目录以从 spark-submit 命令写入事件日志。

如果有人可以帮助我找到解决方案,那将非常有帮助。或者,如果我做错了什么,任何见解都会对我有所帮助。

谢谢。

最佳答案

在同一个地方卡了几天后,我终于找到了解决问题的方法。

在浏览了集群部署模式的 Spark 代码和一些博客之后,几乎没有什么事情弄清楚了。它可能会帮助其他寻求相同结果的人。

在集群部署模式下,作业是通过用户提交机器的客户端线程提交的。实际上,我正在将 log4j 配置传递给驱动程序和执行程序,但错过了“客户端”的 log 4j 配置丢失的部分。

所以我们需要使用:-

SPARK_SUBMIT_OPTS="-Dlog4j.debug=true -Dlog4j.configuration= <location>/log4j.properties" Spark 提交 <rest of the parameters>

关于apache-spark - 集群部署模式下的 spark-submit 将应用程序 ID 获取到控制台,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51159364/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com