gpt4 book ai didi

apache-spark - Apache Toree 连接到远程 Spark 集群

转载 作者:行者123 更新时间:2023-12-04 08:03:58 25 4
gpt4 key购买 nike

有没有办法将 Apache Toree 连接到远程 Spark 集群?我看到常见的命令是

jupyter toree install --spark_home=/usr/local/bin/apache-spark/

如何在无需本地安装的情况下在远程服务器上使用 spark?

最佳答案

确实有一种方法可以让 Toree 连接到远程 Spark 集群。

我发现的最简单的方法是克隆现有的 Toree Scala/Python 内核,并创建一个新的 Toree Scala/Python Remote 内核。这样您就可以选择在本地或远程运行。

步骤:

  • 制作现有内核的副本。在我的特定 Toree 安装中,内核路径位于:/usr/local/share/jupyter/kernels/ ,所以我执行了以下命令:cp -pr /usr/local/share/jupyter/kernels/apache_toree_scala/ /usr/local/share/jupyter/kernels/apache_toree_scala_remote/
  • 编辑新kernel.json文件在 /usr/local/share/jupyter/kernels/apache_toree_scala_remote/并将必要的 Spark 选项添加到 __TOREE_SPARK_OPTS__多变的。从技术上讲,只有 --master <path>是必需的,但您也可以将 --num-executors、--executor-memory 等添加到变量中。
  • 重启 Jupyter。

  • 我的 kernel.json 文件如下所示:
    {
    "display_name": "Toree - Scala Remote",
    "argv": [
    "/usr/local/share/jupyter/kernels/apache_toree_scala_remote/bin/run.sh",
    "--profile",
    "{connection_file}"
    ],
    "language": "scala",
    "env": {
    "PYTHONPATH": "/opt/spark/python:/opt/spark/python/lib/py4j-0.9-src.zip",
    "SPARK_HOME": "/opt/spark",
    "DEFAULT_INTERPRETER": "Scala",
    "PYTHON_EXEC": "python",
    "__TOREE_OPTS__": "",
    "__TOREE_SPARK_OPTS__": "--master spark://192.168.0.255:7077 --deploy-mode client --num-executors 4 --executor-memory 4g --executor-cores 8 --packages com.databricks:spark-csv_2.10:1.4.0"
    }
    }

    关于apache-spark - Apache Toree 连接到远程 Spark 集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42304827/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com