gpt4 book ai didi

python - 入门 - Spark, IPython notebook with pyspark

转载 作者:行者123 更新时间:2023-12-02 21:34:10 24 4
gpt4 key购买 nike

我想了解如何设置一切以使 iPython 笔记本和 pyspark 正常工作。

我目前有一个 ec2 实例。

告诉我我是否错了,但我想我可以使用这个:

./spark-ec2 --key-pair=awskey --identity-file=awskey.pem --region=us-west-1 --zone=us-west-1a --spark-version=1.1.0 launch my-spark-cluster

( spark.apache.org)

或这个 :
aws emr create-cluster --name "Spark cluster" --release-label emr-4.1.0 --applications Name=Spark --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles

( http://docs.aws.amazon.com/)

这两者之间真的有很大的区别吗?

要编写和执行我的脚本,我应该在主节点上,对吧?

那么,我用来运行 Spark 的 ec2 实例不会被使用吗?

(我必须在主节点上安装 ipython 笔记本?)

在此先感谢您的帮助。

(我一直在寻找教程,但我没有找到我想要的东西。

你知道好的吗?)

最佳答案

你提到的第一个教程是我迄今为止发现的最好的。我不确定您提到的两种方法之间的区别。

我用了./spark-ec2在 EC2 上成功构建 Spark 集群。让它与 IPython 一起工作需要一些额外的安装。

首先使用 ./spark-ec2 启动您的集群过程。我在以下方面取得了成功:

  • 在主节点和所有工作节点上安装 Anaconda 和 PY4J。 Anaconda 应该设置在路径的前面(例如 PATH=/home/ec2-user/anaconda2/bin:$PATH)。
  • 接下来,ssh 到 master,然后 $cd /root/spark运行:
    MASTER=spark://<public DNS>:7077 PYSPARK_PYTHON=~/anaconda2/bin/python PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS='notebook  --ip="*"' ./bin/pyspark
  • 访问 :8888 以获得对笔记本的访问权限。如果你想让它公开,那么在安全组中为 master 开放 8888 端口。否则,创建一个 ssh 隧道。
  • 关于python - 入门 - Spark, IPython notebook with pyspark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33306047/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com