gpt4 book ai didi

scala - 什么会导致阶段在 Spark 中重新尝试

转载 作者:行者123 更新时间:2023-12-03 14:43:43 27 4
gpt4 key购买 nike

我在 Spark 网页中有以下阶段(与 yarn 一起使用):

enter image description here

我对 Stage 0 感到惊讶的事情重试1,重试2。什么会导致这样的事情?

我试图自己重现它并杀死我的一台集群机器上的所有执行程序进程( CoarseGrainedExecutorBackend ),但我得到的只是一些失败的任务,描述为 Resubmitted (resubmitted due to lost executor) .

全阶段重试的原因是什么?我很好奇的是,每个阶段尝试读取的 Records 数量是不同的:

enter image description here



enter image description here

请注意 3011506Attempt 1195907736Attempt 0 .阶段重试是否会导致 Spark 重新读取某些记录两次?

最佳答案

阶段失败可能是由于 Spark 中的 FetchFailure

获取失败: Reduce 任务无法执行 shuffle Read,即无法在磁盘写入的 shuffle map 任务中定位 shuffle 文件。

如果 stageFailureCount < maxStageFailures,Spark 将重试该阶段,否则它会中止该阶段和相应的 Job。

https://youtu.be/rpKjcMoega0?t=1309

关于scala - 什么会导致阶段在 Spark 中重新尝试,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53237225/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com