gpt4 book ai didi

hadoop - 检查点在 Apache Spark 上有什么作用?

转载 作者:可可西里 更新时间:2023-11-01 15:29:37 27 4
gpt4 key购买 nike

检查点对 Apache Spark 有什么作用,它对 RAM 或 CPU 有何影响?

最佳答案

来自 Apache Streaming Documentation - 希望对您有所帮助:

流式应用程序必须 24/7 全天候运行,因此必须能够应对与应用程序逻辑无关的故障(例如,系统故障、JVM 崩溃等)。为了使这成为可能,Spark Streaming 需要将足够的信息检查点到容错存储系统,以便它可以从故障中恢复。有两种类型的数据被检查点。

  • 元数据检查点 - 定义信息的保存将计算流式传输到 HDFS 等容错存储。这是用于从运行驱动程序的节点的故障中恢复流应用程序(稍后详细讨论)。元数据包括:
    • 配置 - 用于创建流应用程序。
    • DStream 操作 - DStream 的集合定义流应用程序的操作。
    • 不完整的批处理
    • 作业已排队但尚未完成的批处理。
  • 数据检查点 - 将生成的 RDD 保存到可靠的存储中。这在一些跨多个批处理组合数据的有状态转换中是必要的。在这样的转换中,生成的RDDs依赖于之前batches的RDDs,这导致依赖链的长度随着时间的推移不断增加。为避免恢复时间的无限增加(与依赖链成比例),有状态转换的中间 RDD 会定期检查点到可靠的存储(例如 HDFS)以切断依赖链。

总而言之,元数据检查点主要用于从驱动程序故障中恢复,而数据或 RDD 检查点即使对于使用有状态转换的基本功能也是必需的。

关于hadoop - 检查点在 Apache Spark 上有什么作用?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36632356/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com