gpt4 book ai didi

apache-spark - Apache Spark : How many partitions can a executor hold in spark. ?执行者之间的分区如何分布(机制)?

转载 作者:行者123 更新时间:2023-12-03 14:55:16 25 4
gpt4 key购买 nike

我有兴趣了解以下 Spark 并行和分区的细节

  • 一个执行器可以在 spark 中保存多少个分区?
  • 执行者之间的分区如何分布(机制)?
  • 如何设置分区的大小。想知道相关的配置参数。
  • 执行器是否将所有分区存储在内存中?如果不是,当溢出到磁盘时,它是将整个分区溢出到磁盘还是将部分分区溢出到磁盘?
    5 如果每个执行程序有 2 个内核,但该执行程序中有 5 个分区,则
  • 最佳答案

    不太正确的看待它的方式。 Executor 什么都没有,它只是在工作。

  • Partition 由已分配给 Executor 的 Core 处理。一个 Executor 通常有 1 个核心,但也可以有 1 个以上这样的核心。
  • 应用程序具有可转换为 1 个或多个作业的操作。
  • 作业具有阶段(基于 Shuffle Boundaries)。
  • 阶段有任务,这些任务的数量取决于分区的数量。
  • 分区的并行处理取决于分配给执行器的内核数量。

  • Spark 在内核、内存和磁盘方面是可扩展的。与您的问题有关的后两个意味着,如果分区不能全部适合您的作业的 Worker 上的内存,那么该分区或更多分区将全部溢出到磁盘。

    关于apache-spark - Apache Spark : How many partitions can a executor hold in spark. ?执行者之间的分区如何分布(机制)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58275463/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com