gpt4 book ai didi

hadoop - Spark 与 Hadoop 有何不同?

转载 作者:可可西里 更新时间:2023-11-01 16:38:26 25 4
gpt4 key购买 nike

我正在尝试学习 Spark 框架。在其主页上 https://spark.apache.org/据说比Hadoop框架还好。但后来他们说:Spark 运行在 Hadoop 上……我真的不明白为什么它可以运行在 Hadoop 上,而它应该比 Hadoop 更好。

谁能给我解释一下这两者之间的层次结构?

最佳答案

Apache Hadoop (2.0) 提供两个主要组件,(1) HDFS Hadoop 分布式文件系统,用于在集群上存储数据(即文件),以及 (2) YARN 集群计算资源管理系统(即 CPU/RAM)。

Hadoop 2.0:

  • 存储管理:HDFS
  • 计算资源管理:YARN

Hadoop (2.0) 还提供了一个名为“MapReduce (MR2 - MapReduce2)”的执行引擎,它可以使用 YARN 计算资源来执行基于 MapReduce 的程序。

在 Hadoop (2.0) 之前,YARN 不存在,而 MapReduce 执行资源管理和执行引擎这两个角色。 Hadoop (2.0) 将计算资源管理与执行引擎分离,允许您在 Hadoop 集群上运行多种类型的应用程序。

  • 当人们说 Spark 优于 Hadoop 时,他们通常指的是 MapReduce 执行引擎。
  • 当人们说 Spark 可以在 Hadoop (2.0) 上运行时,他们通常指的是使用 YARN 计算资源的 Spark。

一些 Hadoop 2.0 执行引擎示例:

  • 用于运行 MapReduce2 (MR2) 的 YARN 资源

  • 用于运行 Spark 的 YARN 资源

  • 用于运行 Tez 的 YARN 资源

Spark 程序需要资源才能运行,它们通常来自 Spark 独立集群,或者通过使用来自 Hadoop 集群的 YARN 资源获取资源; Spark还有其他运行方式,这里不做讨论。

与 MapReduce 程序一样,Spark 程序也可以访问存储在 HDFS 或其他地方的数据。

关于hadoop - Spark 与 Hadoop 有何不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46874827/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com