gpt4 book ai didi

hadoop - Spark on yarn 概念理解

转载 作者:可可西里 更新时间:2023-11-01 14:07:02 26 4
gpt4 key购买 nike

我想了解 spark 如何在 YARN 集群/客户端上运行。我心中有以下问题。

  1. yarn cluster的所有节点都必须安装spark吗?我认为这应该是因为集群中的工作节点执行任务并且应该能够解码驱动程序发送到集群的 spark 应用程序中的代码(spark API)?

  2. 文档中说“确保 HADOOP_CONF_DIRYARN_CONF_DIR 指向包含 Hadoop 集群(客户端)配置文件的目录”。为什么client节点在向集群发送作业时必须安装Hadoop?

最佳答案

添加到其他答案。

  1. Is it necessary that spark is installed on all the nodes in the yarncluster?

,如果 spark 作业在 YARN 中调度(clientcluster 模式)。仅在 standalone mode 的许多节点中需要安装 Spark .

这些是 spark 应用程序部署模式的可视化。

Spark 独立集群

Spark standalone mode

cluster 模式下,driver 将位于 Spark Worker 节点之一,而在 client 模式下,它将在启 Action 业的机器中


YARN集群模式

YARN cluster mode

YARN 客户端模式

YARN client mode

此表简要列出了这些模式之间的差异:

differences among Standalone, YARN Cluster and YARN Client modes

pics source

  1. It says in the documentation "Ensure that HADOOP_CONF_DIR or YARN_CONF_DIR points to the directory which contains the (client-side)configuration files for the Hadoop cluster". Why does the client node haveto install Hadoop when it is sending the job to cluster?

Hadoop 安装不是强制性的但配置(不是全部)是!。 我们可以称它们为网关节点。主要有两个原因。

  • HADOOP_CONF_DIR 目录中包含的配置将分发到 YARN 集群,以便应用程序使用的所有容器都使用相同的配置。
  • 在 YARN 模式下,ResourceManager 的地址是从Hadoop 配置(yarn-default.xml)。因此,--master参数是yarn

更新:(2017-01-04)

Spark 2.0+ no longer requires a fat assembly jar for productiondeployment. source

关于hadoop - Spark on yarn 概念理解,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24909958/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com