gpt4 book ai didi

apache-spark - Spark的RDD通过什么方式完成容错?

转载 作者:行者123 更新时间:2023-12-03 07:20:18 25 4
gpt4 key购买 nike

Spark 围绕弹性分布式数据集 (RDD) 的概念,它是可以并行操作的容错元素集合。但是,我并没有找到RDD完成容错的内部机制。有人能描述一下这个机制吗?谢谢。

最佳答案

让我用我理解的非常简单的术语解释一下。

当处理数据的节点之一崩溃时,集群中可能会发生故障。用 Spark 术语来说,RDD 被分成多个分区,每个节点(称为执行器)在任何时间点都在分区上运行。 (理论上,每个执行器都可以分配多个任务,具体取决于分配给作业的核心数量与 RDD 中存在的分区数量)。

通过操作,真正发生的是在 RDD 的分区上执行的一系列 Scala 函数(在 Spark 术语中称为转换和操作,具体取决于函数是纯函数还是副作用函数)。这些操作组合在一起,Spark 执行引擎将它们视为操作的有向无环图。

现在,如果某个特定节点在操作 Z 的过程中崩溃,该操作依赖于操作 Y,而操作 Y 又依赖于操作 X。集群管理器 (YARN/Mesos) 发现该节点已死亡并尝试分配另一个节点继续处理。该节点将被告知对 RDD 的特定分区进行操作,并通过传入创建的 Scala 闭包来执行它必须执行的一系列操作 X->Y->Z(称为 lineage)来自应用程序代码。现在新节点可以愉快地继续处理并且实际上没有数据丢失。

Spark 还使用此机制来保证exactly-once 处理,但需要注意的是,您执行的任何副作用操作(例如在 Spark Action block 中调用数据库)可以被多次调用。但是,如果您将转换视为从一个 RDD 到另一个 RDD 的纯函数映射,那么您可以放心,生成的 RDD 将仅处理一次来自源 RDD 的元素。

Spark 中的容错领域非常广阔,需要更多的解释。我希望看到其他人提出有关如何实现这一点的技术细节等。不过还是感谢这个很棒的主题。

关于apache-spark - Spark的RDD通过什么方式完成容错?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39189483/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com