gpt4 book ai didi

apache-spark - Apache Spark : setting spark. eventLog.enabled 和 Spark.eventLog.dir 在提交或 Spark 启动时

转载 作者:行者123 更新时间:2023-12-03 07:24:51 26 4
gpt4 key购买 nike

我想在 spark-submitstart 处设置 spark.eventLog.enabledspark.eventLog.dir -all level -- 不要求在 scala/java/python 代码中启用它。我尝试了各种方法但没有成功:

spark-defaults.conf设置为

spark.eventLog.enabled           true
spark.eventLog.dir hdfs://namenode:8021/directory

spark.eventLog.enabled           true
spark.eventLog.dir file:///some/where

运行spark-submit:

spark-submit --conf "spark.eventLog.enabled=true" --conf "spark.eventLog.dir=file:///tmp/test" --master spark://server:7077 examples/src/main/python/pi.py

使用环境变量启动spark:

SPARK_DAEMON_JAVA_OPTS="-Dspark.eventLog.enabled=true -Dspark.history.fs.logDirectory=$sparkHistoryDir -Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=2d"

只是为了矫枉过正:

SPARK_HISTORY_OPTS="-Dspark.eventLog.enabled=true -Dspark.history.fs.logDirectory=$sparkHistoryDir -Dspark.history.provider=org.apache.spark.deploy.history.FsHistoryProvider -Dspark.history.fs.cleaner.enabled=true -Dspark.history.fs.cleaner.interval=2d"

这些东西必须在哪里以及如何设置才能获取任意作业的历史记录?

最佳答案

我解决了这个问题,但奇怪的是我以前尝试过这个......尽管如此,现在它似乎是一个稳定的解决方案:

HDFS中创建一个用于日志记录的目录,例如/eventLogging

hdfs dfs -mkdir /eventLogging

然后 spark-shellspark-submit (或其他)可以使用以下选项运行:

--conf spark.eventLog.enabled=true --conf spark.eventLog.dir=hdfs://<hdfsNameNodeAddress>:8020/eventLogging

如:

spark-shell --conf spark.eventLog.enabled=true --conf spark.eventLog.dir=hdfs://<hdfsNameNodeAddress>:8020/eventLogging

关于apache-spark - Apache Spark : setting spark. eventLog.enabled 和 Spark.eventLog.dir 在提交或 Spark 启动时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31233830/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com