docker - 如何远程运行spark-submit？-6ren

docker - 如何远程运行spark-submit？

转载作者：行者123 更新时间：2023-12-02 07:29:41

29

4

我有 Spark 在集群中运行(远程)

如何使用spark-submit将应用程序提交到具有以下场景的远程集群:

spark-submit 通过camel 作为命令执行
应用程序在自己的容器中运行。

来自以下链接:

https://github.com/mvillarrealb/docker-spark-cluster

https://github.com/big-data-europe/docker-spark

我们可以提交 Spark 应用程序，但我们已将文件和 jar 复制到卷中。

如何避免这种情况？

有什么办法吗？

最佳答案

最简单的方法是使用在 Spark 主节点上运行的 livy Rest 服务器。这允许您仅通过在本地打包作业并使用提交休息 API 来提交作业。 Livy 现在默认与许多 Spark 云提供商一起提供。 (AWS、Azure、Hortonworks)请参阅doc

我仍然相信只需在本地安装相同的 Spark 驱动程序就可以提交。然而我放弃了这个。特别是如果使用 yarn ，我找不到正确的配置以及要连接的端口。

实际上，这也不是一个好的操作设置，因为您的计算机需要参与集群网络或打开特定端口。并且您的本地计算机也开始参与 Spark 协议(protocol)。

将代码部署到集群上的临时位置，然后使用 Spark-submit 或使用定义良好的 livy api 端点是一个好方法。

有关集群内连接的评论的更新:

在一组 Spark 机器和每台机器上安装的适当驱动程序中，可以从任何机器提交作业。此外，在集群内，管理员将端口向所有参与的计算机开放。

spark-submit 命令有一个 master-url 参数。该url必须使用spark协议(protocol):

./bin/spark-submit \
  --class <main-class \
  --master <master-url> \ 
  <application-jar>

没有dns和yarn，主url看起来像这样 - Spark://192.168.1.1:7077(spark协议(protocol)，主节点/虚拟机的IP，端口)

我已经使用 docker-compose 进行了类似的设置。 https://github.com/dre-hh/spark_playground

有 3 种类型的节点具有自记录名称: spark-master , spark-worker和 spark-submit .
appcode 仅由build . 部署到spark-submit 节点。命令。这是唯一在本地构建的 docker 镜像。它继承自 Spark-Image。因此，它具有与其他节点完全相同的 Spark 驱动器。另外它会复制所有项目将 git 存储库(包括作业)中的代码复制到节点上的特定文件夹中。
所有其他节点都是根据官方镜像构建的docker 注册表并保持不变(某些配置除外)。
最后可以从spark-submit节点使用spark-submit。然而在此示例中，我刚刚启动了交互式 jupyter notebook并从应用代码本身连接。

注意:docker-compose 自动附带 dns，因此我不必通过 ip 引用节点。

 # "spark-master" will automatically resolve to the ip of the master node because of docker-compose naming convention and dns rules
 pyspark.SparkContext(master="spark://spark-master:7077", appName="Pi")

https://github.com/dre-hh/spark_playground/blob/master/docker-compose.yml#L48

关于docker - 如何远程运行spark-submit？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59090746/

29

4

0

文章推荐： common-lisp - 使用 setf 避免冗余位置计算

文章推荐： .net - 如何用MSIL代码写入文件

docker - docker ， docker 没有IPAddress检查
我正在使用以下dockerfile: FROM ubuntu:14.04 MAINTAINER xxx xxx # SSH RUN apt-get update && apt-get install
docker - Docker docker-compose不获取相关的缓存镜像
我运行了docker-compose build celery，(经过数小时的尝试，我的连接不良)成功了。 app Dockerfile的前80％是相同的，但不会重复使用缓存。从我可以浏览的内容来看，
docker - docker 守护进程重新启动后，Docker 注册表中的所有存储库都会被删除 (docker-for-mac)
我可以使用以下命令成功创建 Docker 注册表 v2 服务:docker service create 然后我使用 docker Push 将一些图像推送到该服务。当我通过 curl localh
docker - 无法连接到 docker 的 docker 镜像中的守护进程 docker
我正在尝试使用 gitlab 构建 CI，我从 docker 的 docker 镜像开始，我的前端存储库没有任何问题，但现在使用相同的 gitlab-ci 配置文件，我有此守护程序错误。这是构建的输
docker - 最小化 Docker-in-Docker 容器内的 `docker build` 执行时间
用例: 我们在 Jenkins 中有几个“发布作业”build 和 push 应用程序的 Docker 镜像到 docker registry，更新各种文件中的项目版本，最后将发布标签推送到相应的 G
docker - 我无法使用 Docker 构建我的 docker 文件来创建我的 docker 镜像
当我尝试构建我的 docker 文件时，docker 返回以下错误: [+] Building 0.0s (1/2)
docker - 如何在不使用 docker-in-docker 的情况下在 jenkins 管道中使用 docker
docker-in-docker 的作者在此博客中建议不要将此图像用于 CI 目的: jpetazzo/Using Docker-in-Docker for your CI or testing en
docker - 在 Docker 容器中运行 Docker : Cannot connect to the Docker daemon
我创建了一个 Dockerfile 来在 Docker 中运行 Docker: FROM ubuntu:16.04 RUN apt-get update && \ apt-get in
docker - 如何在 Docker 命令行的 Docker 注册表中找到具有特定标记的 Docker 镜像？
我尝试为 Docker 镜像定位一个特定标签。我怎样才能在命令行上做到这一点？我想避免下载所有图像，然后删除不需要的图像。在 Ubuntu 官方版本中，https://registry.hub.do
docker - docker 内的 docker ，发布HTTP错误
我正在尝试在docker中运行docker。唯一的目的是实验性的，我绝不尝试实现任何功能，我只想检查docker从另一个docker运行时的性能。我通过Mac上的boot2docker启动docke
docker - Docker:docker-compose.yml中用于自动重新部署新镜像的选项
docker-compose.yml version: "3" services: daggr: image: "docker.pvt.com/test/daggr:stable"
docker - 在 Docker 容器内访问 Docker
我有一个非常具体的开发环境用例。在一些代码中，我启动了一个容器来抓取页面并检索在容器中运行的服务(Gitlab)的 token 。现在，我希望 Dockerize 运行它的代码。具体来说，类似: o
docker - docker-compose文件vs docker bundle
之前已经问过这个问题，但我不确定当时是否可以使用docker-compose文件完成docker堆栈部署。由于最新版本支持使用compose将服务部署到堆栈，因此，我无法理解dab文件的值。我检查
docker - docker 池和 docker 注册表有什么区别？
我在一次采访中被问到这个问题，但无法回答。也没有找到任何相关信息。最佳答案正如 Docker 文档中所述，Docker 注册表是: [...] a hosted service containin
docker - docker :如何将 docker 中的所有png文件复制到主机？
有没有一种方法可以将具有给定扩展名的所有文件复制到Docker中的主机？就像是 docker cp container_name:path/to/file/in/docker/*.png path/o
docker - docker 日志级别会影响日志记录驱动程序还是仅影响 docker 守护程序的日志？
我的日志驱动程序设置为journald。使用日志记录驱动程序时，daemon.json文件中的日志级别配置会影响日志吗？使用docker logs 时仅会影响容器日志？例如，docker和journ
docker - docker 服务如何管理从单独的 docker 容器调用实例？
我最近开始使用Docker + Celery。我还共享了full sample codes for this example on github，以下是其中的一些代码段，以帮助解释我的观点。就上下文
docker - docker :无法提交构建的 docker 镜像
运行docker build .命令后，尝试提交构建的镜像，但收到以下错误 Step 12 : CMD activator run ---> Using cache ---> efc82ff1ca
docker - Docker + docker-组成+无法启动服务
我们有docker-compose.yml，其中包含Kafka，zookeeper和schema registry的配置当我们启动docker compose时，出现以下错误 docker-comp
docker - docker 基本图像存储库ouside docker 中心？
我是Docker的新手。是否可以在Docker Hub外部建立Docker基本镜像存储库？假设将它们存储在您的云中，而不是拥有DH帐户？谢谢。最佳答案您可以根据需要托管自己的注册表。可以在Depl

首页

博学

6Ren·AI

商城

docker - 如何远程运行spark-submit？