gpt4 book ai didi

python - 在防火墙后面向 Apache-Spark 提交作业

转载 作者:行者123 更新时间:2023-12-01 02:54:22 24 4
gpt4 key购买 nike

用例:我位于防火墙后面,并且可以访问远程 Spark 集群,但是这些计算机无法直接连接到我。

作为 Spark doc指出工作人员必须能够访问驱动程序:

Because the driver schedules tasks on the cluster, it should be run close to the worker nodes, preferably on the same local area network. If you’d like to send requests to the cluster remotely, it’s better to open an RPC to the driver and have it submit operations from nearby than to run a driver far away from the worker nodes.

建议的解决方案是在集群上运行一个服务器进程来监听 RPC,并让它在本地执行 Spark 驱动程序。

这样的程序已经存在吗?这样的进程应该管理1+个RPC,返回异常并处理日志。

同样在这种情况下,是我的本地程序还是 Spark 驱动程序必须创建 SparkContext?

注意:我有一个独立的集群

解决方案1:

一种简单的方法是对独立集群使用集群模式(类似于 --deploy-mode cluster),但是 doc说:

Currently, standalone mode does not support cluster mode for Python applications.

最佳答案

只有几个选项:

  • 使用 ssh 连接到集群节点,开始screen ,提交Spark申请,返回查看结果。
  • 在集群上部署 Job Server、Livy 或 Mist 等中间件,并将其用于提交。
  • 在集群上部署笔记本(Zeppelin、Toree)并从笔记本提交应用程序。
  • 设置固定 spark.driver.portssh通过集群节点之一转发所有连接,使用其 IP 作为 spark.driver.bindAddress .

关于python - 在防火墙后面向 Apache-Spark 提交作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44373741/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com