gpt4 book ai didi

apache-spark - 如何使用 jupyter notebook 运行 pyspark?

转载 作者:行者123 更新时间:2023-12-03 11:09:37 25 4
gpt4 key购买 nike

当我在控制台中运行命令 pyspark 时,我试图启动 jupyter notebook。当我现在输入它时,它只会在控制台中启动和交互式 shell。但是,这不方便键入长代码行。有没有办法将 jupyter notebook 连接到 pyspark shell?谢谢。

最佳答案

我假设您已经安装了 spark 和 jupyter 笔记本,并且它们可以完美地相互独立地工作。

如果是这种情况,请按照以下步骤操作,您应该能够启动带有 (py)spark 后端的 jupyter 笔记本。

  • 转到您的 spark 安装文件夹,那里应该有一个 bin 目录:/path/to/spark/bin
  • 创建一个文件,我们称之为 start_pyspark.sh
  • 打开 start_pyspark.sh 并编写如下内容:
        #!/bin/bash
    export PYSPARK_PYTHON=/path/to/anaconda3/bin/python
    export PYSPARK_DRIVER_PYTHON=/path/to/anaconda3/bin/jupyter
    export PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.open_browser=False --NotebookApp.ip='*' --NotebookApp.port=8880"

    pyspark "$@"


  • /path/to ... 分别替换为您安装 python 和 jupyter 二进制文件的路径。
  • 这一步很可能已经完成,但以防万一
    通过添加以下行来修改您的 ~/.bashrc 文件

    # Spark
    导出路径="/path/to/spark/bin:/path/to/spark/sbin:$PATH"
    export SPARK_HOME="/path/to/spark"
    导出 SPARK_CONF_DIR="/path/to/spark/conf"

  • 运行 source ~/.bashrc 就可以了。

    继续尝试 start_pyspark.sh
    您还可以为脚本提供参数,例如 start_pyspark.sh --packages dibbhatt:kafka-spark-consumer:1.0.14

    希望可以帮助你。

    enter image description here

    关于apache-spark - 如何使用 jupyter notebook 运行 pyspark?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48915274/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com