gpt4 book ai didi

apache-spark - RDD、分区和节点之间的关系

转载 作者:行者123 更新时间:2023-12-03 07:12:17 26 4
gpt4 key购买 nike

我一直在阅读有关 RDD 的内容以及分区如何影响各种转换,以及某些转换如何影响分区本身。虽然我理解这一点,但我无法将其与更大的图景联系起来,以了解它如何适合我们拥有多个节点的集群。

分区和节点之间是否存在一一对应的关系?我的意思是,理想情况下每个节点是否有一个分区?如果不是,Spark 如何决定特定 RDD 的多少个分区必须驻留在同一节点上?

更具体地说,我可以想到以下其中一项:-

1) 同一节点上给定 RDD 的所有分区2)同一个RDD的所有分区可以驻留在不同的节点上(但是 split 的依据是什么?)3)同一个节点的分区分散在集群中,有的在同一个节点上,有的在不同的节点上(同样,这种分布的依据是什么?)

有人可以解释一下或者至少指出一些可以准确回答这个问题的特定链接吗?

最佳答案

  • 单个 RDD 具有一个或多个分布在多个节点上的分区,
  • 单个分区在单个节点上处理,
  • 单个节点可以处理多个分区(根据 official documentation 每个 CPU 最佳有 2-4 个分区)

由于 Spark 支持可插入资源管理,因此发行版的详细信息将取决于您使用的发行版(Standalone、Yarn、Messos)。

关于apache-spark - RDD、分区和节点之间的关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31359219/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com