gpt4 book ai didi

hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点

转载 作者:可可西里 更新时间:2023-11-01 14:48:27 27 4
gpt4 key购买 nike

我们有 cloudera 5.2,用户希望开始使用 Spark 的全部潜力(在分布式模式下,它可以利用 HDFS 的数据局部性),该服务已经安装并且可以在 cloudera 管理器状态(在 home页面)但是当单击服务然后单击“实例”时,它只显示历史服务器角色,而在其他节点中显示网关服务器角色。根据我对 Spark 架构的理解,你有一个主节点和工作节点(与 HDFS 数据节点一起生活)所以在 cloudera 管理器中我尝试了“添加角色实例”,但只有“网关”角色可用。如何将 Sparks 工作节点(或执行程序)角色添加到具有 HDFS 数据节点的主机?还是没有必要(我认为由于 yarn,yarn 负责创建执行程序和应用程序主机)?主节点的情况如何?我是否需要配置任何东西以便用户可以在其完全分布式模式下使用 Spark?

最佳答案

master 和 worker 角色是 Spark Standalone 服务的一部分。您可以选择 Spark 与 YARN(其中 Master 和 Worker 节点无关)或 Spark(Standalone)一起运行。

由于您在 Cloudera Manager 中启动了 Spark 服务而不是 Spark (Standalone),因此 Spark 已经在使用 YARN。在 Cloudera Manager 5.2 及更高版本中,有两个独立的 Spark 服务(Spark 和 Spark (Standalone))。 Spark 服务将 Spark 作为 YARN 应用程序运行,除了 Spark History Server 角色外,它只具有网关角色。

How do you add Sparks worker node(or executor) role to the hosts where you have HDFS datanodes?

不需要。这些主机上只需要网关角色。

引自CM Documentation :

在 Cloudera Manager 中,网关角色负责将客户端配置传播到集群中的其他主机。因此,请确保将网关角色分配给集群中的主机。如果您没有网关角色,则不会部署客户端配置。

关于hadoop - 如何使用 Yarn 在 Cloudera 上添加 Spark 工作节点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42660301/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com