gpt4 book ai didi

apache-spark - 如何设置Zeppelin以与远程EMR yarn 群集一起使用

转载 作者:行者123 更新时间:2023-12-04 05:08:42 24 4
gpt4 key购买 nike

我有带Spark 1.4.1的Amazon EMR Hadoop v2.6集群和Yarn资源管理器。
我想将Zeppelin部署在单独的计算机上,以允许在没有作业在运行时关闭EMR群集。

我尝试从这里按照以下指示进行操作https://zeppelin.incubator.apache.org/docs/install/yarn_install.html
没有多少成功。

有人可以揭开Zeppelin如何从另一台机器连接到现有Yarn集群的神秘面纱吗?

最佳答案

[1]使用适当的参数安装Zeppelin:

git clone https://github.com/apache/incubator-zeppelin.git ~/zeppelin;
cd ~/zeppelin;
mvn clean package -Pspark-1.4 -Dhadoop.version=2.6.0 -Phadoop-2.6 -Pyarn -DskipTests

[2]更新EMR_MASTER EC2安全组以接受来自所有端口的传入请求,以与Zeppelin通信(应为特定端口,尚不知道哪个端口)

[3]将目录EMR_MASTER:/etc/hadoop/conf复制到MY_STANDALONE_SERVER:/home/zeppelin/hadoop-conf。

[4] zeppelin/conf/zeppelin-env.sh应该包含:
export MASTER=yarn-client
export HADOOP_CONF_DIR=/home/zeppelin/hadoop-conf

注意:像 spark.executor.instances这样的Spark参数是从Interpreter设置中获取的,并在此处指定。

关于apache-spark - 如何设置Zeppelin以与远程EMR yarn 群集一起使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32593326/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com