gpt4 book ai didi

apache-spark - Spark中转换的失败处理

转载 作者:行者123 更新时间:2023-12-02 18:56:36 25 4
gpt4 key购买 nike

我从s3将所有数据读入pyspark数据帧。
我将过滤器转换应用于数据框。然后将数据帧写入S3。
可以说数据帧有10个分区,每个分区64MB。
现在说,对于分区1、2和3,筛选和写入成功,并且数据已写入S3。
现在,让我们说出分区4的过滤器错误。
此后会发生什么。是否将对其余所有分区继续执行spark并离开分区4,还是仅写入3个分区后程序终止?

最佳答案

非本地操作模式的相关参数是:spark.task.maxFailures

  • 如果您有32个任务,并且有4个执行程序,有7个已运行,而4个正在运行,并且在该阶段有21个任务在等待,
  • ,如果在重新调度后这4个故障之一比spark.task.maxFailures故障更多,
  • ,然后作业将停止并且不再执行任何阶段。
  • 这3个正在运行的任务将完成,仅此而已。



  • 多阶段作业必须停止,因为新阶段只能在前一阶段的所有任务完成后才能开始。

    关于apache-spark - Spark中转换的失败处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62633912/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com