- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有 Spark 在集群中运行(远程)
如何使用spark-submit将应用程序提交到具有以下场景的远程集群:
spark-submit 通过camel 作为命令执行
应用程序在自己的容器中运行。
来自以下链接:
https://github.com/mvillarrealb/docker-spark-cluster
https://github.com/big-data-europe/docker-spark
我们可以提交 Spark 应用程序,但我们已将文件和 jar 复制到卷中。
如何避免这种情况?
有什么办法吗?
最佳答案
最简单的方法是使用在 Spark 主节点上运行的 livy Rest 服务器。这允许您仅通过在本地打包作业并使用提交休息 API 来提交作业。 Livy 现在默认与许多 Spark 云提供商一起提供。 (AWS、Azure、Hortonworks)请参阅doc
我仍然相信只需在本地安装相同的 Spark 驱动程序就可以提交。然而我放弃了这个。特别是如果使用 yarn ,我找不到正确的配置以及要连接的端口。
实际上,这也不是一个好的操作设置,因为您的计算机需要参与集群网络或打开特定端口。并且您的本地计算机也开始参与 Spark 协议(protocol)。
将代码部署到集群上的临时位置,然后使用 Spark-submit 或使用定义良好的 livy api 端点是一个好方法。
有关集群内连接的评论的更新:
在一组 Spark 机器和每台机器上安装的适当驱动程序中,可以从任何机器提交作业。此外,在集群内,管理员将端口向所有参与的计算机开放。
spark-submit 命令有一个 master-url 参数。该url必须使用spark协议(protocol):
./bin/spark-submit \
--class <main-class \
--master <master-url> \
<application-jar>
没有dns和yarn,主url看起来像这样 - Spark://192.168.1.1:7077(spark协议(protocol),主节点/虚拟机的IP,端口)
我已经使用 docker-compose 进行了类似的设置。 https://github.com/dre-hh/spark_playground
注意:docker-compose 自动附带 dns,因此我不必通过 ip 引用节点。
# "spark-master" will automatically resolve to the ip of the master node because of docker-compose naming convention and dns rules
pyspark.SparkContext(master="spark://spark-master:7077", appName="Pi")
https://github.com/dre-hh/spark_playground/blob/master/docker-compose.yml#L48
关于docker - 如何远程运行spark-submit?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59090746/
我正在使用以下dockerfile: FROM ubuntu:14.04 MAINTAINER xxx xxx # SSH RUN apt-get update && apt-get install
我运行了docker-compose build celery,(经过数小时的尝试,我的连接不良)成功了。 app Dockerfile的前80%是相同的,但不会重复使用缓存。从我可以浏览的内容来看,
我可以使用以下命令成功创建 Docker 注册表 v2 服务:docker service create 然后我使用 docker Push 将一些图像推送到该服务。 当我通过 curl localh
我正在尝试使用 gitlab 构建 CI,我从 docker 的 docker 镜像开始,我的前端存储库没有任何问题,但现在使用相同的 gitlab-ci 配置文件,我有此守护程序错误。 这是构建的输
用例: 我们在 Jenkins 中有几个“发布作业”build 和 push 应用程序的 Docker 镜像到 docker registry,更新各种文件中的项目版本,最后将发布标签推送到相应的 G
当我尝试构建我的 docker 文件时,docker 返回以下错误: [+] Building 0.0s (1/2)
docker-in-docker 的作者在此博客中建议不要将此图像用于 CI 目的: jpetazzo/Using Docker-in-Docker for your CI or testing en
我创建了一个 Dockerfile 来在 Docker 中运行 Docker: FROM ubuntu:16.04 RUN apt-get update && \ apt-get in
我尝试为 Docker 镜像定位一个特定标签。我怎样才能在命令行上做到这一点?我想避免下载所有图像,然后删除不需要的图像。 在 Ubuntu 官方版本中,https://registry.hub.do
我正在尝试在docker中运行docker。唯一的目的是实验性的,我绝不尝试实现任何功能,我只想检查docker从另一个docker运行时的性能。 我通过Mac上的boot2docker启动docke
docker-compose.yml version: "3" services: daggr: image: "docker.pvt.com/test/daggr:stable"
我有一个非常具体的开发环境用例。在一些代码中,我启动了一个容器来抓取页面并检索在容器中运行的服务(Gitlab)的 token 。 现在,我希望 Dockerize 运行它的代码。具体来说,类似: o
之前已经问过这个问题,但我不确定当时是否可以使用docker-compose文件完成docker堆栈部署。 由于最新版本支持使用compose将服务部署到堆栈,因此,我无法理解dab文件的值。 我检查
我在一次采访中被问到这个问题,但无法回答。也没有找到任何相关信息。 最佳答案 正如 Docker 文档中所述,Docker 注册表是: [...] a hosted service containin
有没有一种方法可以将具有给定扩展名的所有文件复制到Docker中的主机?就像是 docker cp container_name:path/to/file/in/docker/*.png path/o
我的日志驱动程序设置为journald。使用日志记录驱动程序时,daemon.json文件中的日志级别配置会影响日志吗?使用docker logs 时仅会影响容器日志? 例如,docker和journ
我最近开始使用Docker + Celery。我还共享了full sample codes for this example on github,以下是其中的一些代码段,以帮助解释我的观点。 就上下文
运行docker build .命令后,尝试提交构建的镜像,但收到以下错误 Step 12 : CMD activator run ---> Using cache ---> efc82ff1ca
我们有docker-compose.yml,其中包含Kafka,zookeeper和schema registry的配置 当我们启动docker compose时,出现以下错误 docker-comp
我是Docker的新手。是否可以在Docker Hub外部建立Docker基本镜像存储库?假设将它们存储在您的云中,而不是拥有DH帐户?谢谢。 最佳答案 您可以根据需要托管自己的注册表。可以在Depl
我是一名优秀的程序员,十分优秀!