gpt4 book ai didi

memory-management - org.apache.spark.shuffle.MetadataFetchFailedException : Missing an output location for shuffle? 的可能原因是什么

转载 作者:行者123 更新时间:2023-12-03 11:02:22 32 4
gpt4 key购买 nike

我正在 EC2 集群上部署 Spark 数据处理作业,该作业对于集群来说很小(16 个核心,总​​共 120G RAM),最大的 RDD 只有 76k+ 行。但是中间严重倾斜(因此需要重新分区)并且每行在序列化后大约有 100k 数据。这项工作总是卡在重新分区中。即,作业将不断出现以下错误并重试:

org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle

org.apache.spark.shuffle.FetchFailedException: Error in opening FileSegmentManagedBuffer

org.apache.spark.shuffle.FetchFailedException: java.io.FileNotFoundException: /tmp/spark-...

我试图找出问题所在,但抛出这些错误的机器的内存和磁盘消耗似乎都低于 50%。我还尝试了不同的配置,包括:
let driver/executor memory use 60% of total memory.
let netty to priortize JVM shuffling buffer.
increase shuffling streaming buffer to 128m.
use KryoSerializer and max out all buffers
increase shuffling memoryFraction to 0.4

但它们都不起作用。小作业总是触发相同系列的错误和最大重试次数(最多 1000 次)。在这种情况下如何解决这个问题?

如果您有任何线索,非常感谢。

最佳答案

如果您收到与此类似的错误,请检查您的日志。

ERROR 2015-05-12 17:29:16,984 Logging.scala:75 - Lost executor 13 on node-xzy: remote Akka client disassociated

每次出现这个错误都是因为你失去了一个执行者。至于你为什么失去了一个执行者,那就是另一回事了,再次检查你的日志以寻找线索。

如果 Yarn 认为您正在使用“太多内存”,则有一件事可能会杀死您的工作

检查这样的事情:
org.apache.hadoop.yarn.server.nodemanager.containermanager.monitor.ContainersMonitorImpl  - Container [<edited>] is running beyond physical memory limits. Current usage: 18.0 GB of 18 GB physical memory used; 19.4 GB of 37.8 GB virtual memory used. Killing container.

另见: http://apache-spark-developers-list.1001551.n3.nabble.com/Lost-executor-on-YARN-ALS-iterations-td7916.html

The current state of the art is to increase spark.yarn.executor.memoryOverhead until the job stops failing. We do have plans to try to automatically scale this based on the amount of memory requested, but it will still just be a heuristic.

关于memory-management - org.apache.spark.shuffle.MetadataFetchFailedException : Missing an output location for shuffle? 的可能原因是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29850784/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com