gpt4 book ai didi

hadoop - 在Hadoop 2.0.0-cdh4.4.0上运行Apache Spark

转载 作者:行者123 更新时间:2023-12-02 21:26:03 25 4
gpt4 key购买 nike

我有一个带有Hadoop 2.0.0-cdh4.4.0的集群,我需要使用YARN作为资源管理器在其上运行Spark。我从http://spark.apache.org/docs/latest/building-spark.html#specifying-the-hadoop-version获得了以下信息

You can enable the yarn profile and optionally set the yarn.version property if it is different from hadoop.version. Spark only supports YARN versions 2.2.0 and later.



我不想升级整个Hadoop软件包以支持YARN版本2.2.0,因为我的HDFS具有海量数据,并且对其进行升级将导致服务中断时间过长,并且对我来说风险太大。

我认为对我来说最好的选择是使用YARN版本高于2.2.0,同时保持Hadoop其他部分的版本不变。如果这样,我应该遵循什么步骤来获得这样的YARN程序包并将其部署到群集中?

还是有其他方法在YARN作为资源管理器的Hadoop 2.0.0-cdh4.4.0上运行Spark?

最佳答案

从理论上讲,虽然您可以仅升级YARN组件,但我的经验表明,这样做会冒很大的库和其他组件不兼容风险。 Hadoop由很多组件组成,但是它们通常没有应有的解耦,这是CDH,HDP和其他Hadoop发行版仅 bundle 某些已知版本的主要原因之一,并且如果您有商业支持,但请更改他们通常不支持您的内容的版本,因为这样做时,内容往往会中断。

此外,CDH4于去年到期,并且不再由Cloudera进行开发,因此,如果发现任何错误,将很难获得修复(通常会被告知升级到新版本)。我也可以根据经验说,如果您想使用Spark的较新版本(例如1.5或1.6),那么您还需要Hadoop的较新版本(无论是CDH,HDP还是其他版本),因为Spark的发展如此之快并提供了YARN后来被固定,因此在Hadoop和Spark的早期版本中存在大量错误和问题。

对不起,我知道这不是您要寻找的答案,但是如果您确实希望工作并且不想花很多时间调试版本不兼容的问题,那么将Hadoop升级到较新版本可能是唯一的选择。

关于hadoop - 在Hadoop 2.0.0-cdh4.4.0上运行Apache Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35936161/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com