gpt4 book ai didi

apache-spark - 如何创建与远程Spark服务器的连接并从运行在本地计算机上的ipython读取数据?

转载 作者:行者123 更新时间:2023-12-04 14:10:51 25 4
gpt4 key购买 nike

我在本地计算机上运行ipython notebook,并希望与远程Spark服务器i.p建立连接。然后从hdfs上存在的remote server文件夹中读取数据。如何从本地ipython notebook创建到Spark服务器的远程连接?

最佳答案

笔记本必须从本地计算机运行,是否有任何特殊原因?如果没有,它将像

  • 在运行spark的远程计算机上安装jupyter/ipythonremote$ pip install "jupyter[all]"
  • 修改spark-env.sh并添加两行export PYSPARK_PYTHON=/usr/bin/python2.7 #your location may varyexport PYSPARK_DRIVER_PYTHON=/usr/local/bin/ipython
  • 启动pysparkPYSPARK_DRIVER_PYTHON_OPTS="notebook --no-browser --port=7777" pyspark
  • 在本地计算机上,设置ssh隧道ssh -i private_key -N -f -L localhost:7776:localhost:7777 ubuntu@remote.com
  • 在您的本地浏览器上,访问http://localhost:7776

  • 您可能希望在屏幕/tmux后面运行#3,以使其保持更长的持续时间。

    一些有用的页面:
    [1]。 http://jupyter-notebook.readthedocs.org/en/latest/public_server.html
    [2]。 http://blog.insightdatalabs.com/jupyter-on-apache-spark-step-by-step

    关于apache-spark - 如何创建与远程Spark服务器的连接并从运行在本地计算机上的ipython读取数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33882553/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com