gpt4 book ai didi

hadoop - 星火基础

转载 作者:可可西里 更新时间:2023-11-01 15:31:24 26 4
gpt4 key购买 nike

我是 Spark 的新手......在学习基础知识时我不清楚一些基本的事情:

查询 1. 对于分布式处理 - Spark 可以在没有 HDFS 的情况下工作吗 - 集群上的 Hadoop 文件系统(比如通过创建它自己的分布式文件系统)或者它是否需要一些基本的分布式文件系统作为像 HDFS 这样的必要条件, GPFS等

查询 2. 如果我们已经在 HDFS 中加载了一个文件(作为分布式 block )——那么 Spark 会再次将其转换为 block 并在它的级别重新分发(用于分布式处理),或者将根据Haddop HDFS 集群。

查询 3. 除了定义 DAG 之外,SPARK 是否也像 MapReduce 一样创建分区并将分区洗牌到 reducer 节点以进行进一步计算?我对此感到困惑,因为在创建 DAG 之前很明显,在每个 Worker 节点上工作的 Spark Executor 将数据 block 加载为内存中的 RDD,并且根据 DAG 应用计算......但是将数据分区到哪里是必需的每个 Keys 并将它们带到将执行 reducer 任务的其他节点(就像 mapreduce)这是如何在内存中完成的??

最佳答案

这最好作为单独的问题来问,问题 3 很难理解。无论如何:

  1. 不,Spark 不需要分布式文件系统。
  2. 默认情况下,Spark 将为每个 HDFS block 创建一个分区,并在可能的情况下将计算与数据放在一起。
  3. 你问的是shuffle。 Shuffle 在 reducer 将从中获取的映射器上创建 block 。 spark.shuffle.memoryFraction 参数控制分配给随机 block 文件的内存量。 (默认为 20%。)spark.shuffle.spill 参数控制内存用完时是否将 shuffle block 溢出到本地磁盘。

关于hadoop - 星火基础,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32185134/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com