gpt4 book ai didi

scala - Spark : Executor Lost Failure (After adding groupBy job)

转载 作者:可可西里 更新时间:2023-11-01 14:23:20 25 4
gpt4 key购买 nike

我正在尝试在 Yarn 客户端上运行 Spark 作业。我有两个节点,每个节点都有以下配置。 enter image description here

我收到“ExecutorLostFailure(执行程序 1 丢失)”。

我已经尝试了大部分 Spark 调优配置。我已经减少到一个执行器丢失,因为最初我遇到了 6 个执行器故障。

这些是我的配置(我的 spark-submit):

HADOOP_USER_NAME=hdfs spark-submit --class genkvs.CreateFieldMappings --master yarn-client --driver-memory 11g --executor-memory 11G --total-executor-cores 16 --num-executors 15 --conf "spark.executor.extraJavaOptions=-XX:+UseCompressedOops -XX:+PrintGCDetails -XX:+PrintGCTimeStamps" --conf spark.akka.frameSize=1000 --conf spark.shuffle.memoryFraction=1 --conf spark.rdd.compress=true --conf spark.core.connection.ack.wait.timeout=800 my-data/lookup_cache_spark-assembly-1.0-SNAPSHOT.jar -h hdfs://hdp-node-1.zone24x7.lk:8020 -p 800

我的数据大小是 6GB,我在工作中做一个 groupBy。

def process(in: RDD[(String, String, Int, String)]) = {
in.groupBy(_._4)
}

我是 Spark 的新手,请帮助我找出我的错误。我现在至少挣扎了一个星期。

非常感谢您。

最佳答案

弹出两个问题:

  • spark.shuffle.memoryFraction 设置为 1。为什么选择它而不是保留默认值 0.2?这可能会使其他非洗牌操作饿死

  • 您只有 11G 可用于 16 个内核。只有 11G,我会将你工作中的 worker 数量设置为不超过 3 - 最初(为了解决执行者丢失问题)只需尝试 1。有 16 个执行者,每个人得到大约 700mb - 然后他们得到就不足为奇了OOME/执行者丢失。

关于scala - Spark : Executor Lost Failure (After adding groupBy job),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33644787/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com