gpt4 book ai didi

hadoop - Apache Spark 在 YARN 中部署时如何处理系统故障?

转载 作者:可可西里 更新时间:2023-11-01 14:14:32 36 4
gpt4 key购买 nike

先决条件

假设 Apache Spark 使用 YARN 部署在 hadoop 集群上。此外, Spark 执行正在运行。 Spark 是如何处理下面列出的情况的?

案例与问题

  1. hadoop 集群的一个节点由于磁盘错误而失败。但是复制足够高并且没有数据丢失。
    • 在该节点上运行的任务会怎样?
  2. hadoop 集群的一个节点由于磁盘错误而失败。复制足够高,数据丢失了。 Simply spark 再也找不到预先配置为工作流资源的文件。
    • 它将如何处理这种情况?
  3. 在执行期间主名称节点故障转移。
    • spark 是否自动使用故障转移名称节点?
    • 当辅助名称节点也发生故障时会发生什么情况?
  4. 由于工作流程中的某些原因,集群完全关闭。
    • spark 会随着集群自动重启吗?
    • 它会恢复到工作流程中的最后一个“保存”点吗?

我知道,有些问题可能听起来很奇怪。不管怎样,我希望你能回答一些或全部。提前致谢。 :)

最佳答案

这里是the mailing list给出的答案问题(由 Cloudera 的 Sandy Ryza 提供的答案):

  1. “Spark 将在不同的节点上重新运行这些任务。”
  2. “在多次尝试读取 block 的任务失败后,Spark 将放弃 HDFS 返回的任何错误并使作业失败。”
  3. “Spark 通过普通的 HDFS 客户端 API 访问 HDFS。在 HA 配置下,这些 API 将自动故障转移到新的名称节点。如果没有留下任何名称节点,Spark 作业将失败。”
  4. 重新启动是管理的一部分,“Spark 支持对 HDFS 进行检查点设置,因此您可以返回到上次调用 HDFS 可用检查点的时间。”

关于hadoop - Apache Spark 在 YARN 中部署时如何处理系统故障?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24762672/

36 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com