gpt4 book ai didi

amazon-s3 - 如何使用 Zeppelin 访问 aws spark-ec2 集群和 s3 存储桶

转载 作者:行者123 更新时间:2023-12-03 06:57:22 25 4
gpt4 key购买 nike

我有一个通过spark-ec2脚本设置的aws ec2集群。

我想配置 Zeppelin,以便我可以在 Zeppelin 本地编写 scala 代码并在集群上运行它(通过 master)。此外,我希望能够访问我的 s3 存储桶。

我关注了this guidethis other one但是我似乎无法从 zeppelin 到我的集群运行 scala 代码。

我在本地安装了 Zeppelin

mvn install -DskipTests -Dspark.version=1.4.1 -Dhadoop.version=2.7.1

我的安全组设置为 AmazonEC2FullAccess 和 AmazonS3FullAccess。

我将 Zeppelin Web 应用程序上的 Spark 解释器属性编辑为 spark://.us-west-2.compute.amazonaws.com:7077来自本地[*]

  1. 当我测试时

    sc

    在解释器中,我收到此错误

    java.net.ConnectException: Connection refused at java.net.PlainSocketImpl.socketConnect(Native Method) at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:345) at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:206) at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:188) at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392) at java.net.Socket.connect(Socket.java:589) at org.apache.thrift.transport.TSocket.open(TSocket.java:182) at 
  2. 当我尝试编辑“conf/zeppelin-site.xml”以将端口更改为 8082 时,没有区别。

注意:我最终还想通过以下方式访问我的 s3 存储桶:

sc.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "xxx")
sc.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey","xxx")
val file = "s3n://<<bucket>>/<<file>>"
val data = sc.textFile(file)
data.first

如果任何仁慈的用户有任何建议(尚未发布在 StackOverflow 上),请告诉我!

最佳答案

很可能您的 IP 地址被阻止连接到 Spark 集群。您可以尝试启动指向该端点的 Spark-shell(甚至只是远程登录)。要修复此问题,您可以登录您的 AWS 帐户并更改防火墙设置。它也有可能没有指向正确的主机(我假设您从 spark://.us-west-2.compute.amazonaws.com:7077 中删除了特定框,但是如果没有,应该有一点 .us-west-2)。您可以尝试 ssh 到该计算机并运行 netstat --tcp -l -n 来查看它是否正在监听(或者甚至只是 ps aux |grep java 来查看 Spark 是否正在运行)。

关于amazon-s3 - 如何使用 Zeppelin 访问 aws spark-ec2 集群和 s3 存储桶,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32557710/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com