gpt4 book ai didi

hadoop - 使用 spark-ec2 更改 hadoop 版本

转载 作者:可可西里 更新时间:2023-11-01 14:12:48 25 4
gpt4 key购买 nike

我想知道在spark-ec2创建集群的时候是否可以更改hadoop版本?

我试过了

spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 launch my-spark-cluster

然后我登录

spark-ec2 -k spark -i ~/.ssh/spark.pem login my-spark-cluster

发现hadoop版本是1.0.4。

我想使用 2.x 版本的 hadoop,最好的配置方法是什么?

最佳答案

Hadoop 2.0

spark-ec2 脚本不支持修改现有集群,但您可以使用 Hadoop 2创建一个新的 Spark 集群。

请参阅脚本的 --help 中的这段摘录:

  --hadoop-major-version=HADOOP_MAJOR_VERSION
Major version of Hadoop (default: 1)

例如:

spark-ec2 -k spark -i ~/.ssh/spark.pem -s 1 --hadoop-major-version=2 launch my-spark-cluster

..将使用当前版本的 Spark 和 Hadoop 2 为您创建一个集群。


如果您使用 Spark v. 1.3.1 或 Spark v. 1.4.0 并将创建一个独立集群,那么您将获得 Hadoop v. 2.0.0 MR1 (来自 Cloudera Hadoop Platform 4.2.0 发行版)这样。


注意事项是:

..但我已经成功使用了几个通过 Hadoop 2.0.0 创建的 Spark 1.2.0 和 1.3.1 集群,使用了一些 Hadoop2 特定的功能。 (对于经过一些调整的 Spark 1.2.0,我已将其放入 Sparkspark-ec2 的分支中,但这是另一回事了。)


Hadoop 2.4、2.6

如果您需要 Hadoop 2.4Hadoop 2.6 那么我目前(截至 2015 年 6 月)建议您手动创建一个独立的集群 - 这比您想象的要容易.

关于hadoop - 使用 spark-ec2 更改 hadoop 版本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28443851/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com