gpt4 book ai didi

apache-spark - 有没有办法在运行 master 的不同服务器上提交 spark 作业

转载 作者:行者123 更新时间:2023-12-04 04:17:36 27 4
gpt4 key购买 nike

我们需要安排 spark 作业,因为我们熟悉 apache-airflow,我们希望继续使用它来创建不同的工作流。我搜索了网页,但没有找到分步指南来安排 Airflow 上的 Spark 作业以及在不同的服务器运行主机上运行它们的选项。

对此的回答将不胜感激。
提前致谢。

最佳答案

您可以通过 3 种方式使用 Apache Airflow 远程提交 Spark 作业:

(1) 使用 SparkSubmitOperator :此运算符(operator)希望您在我们的 Airflow 服务器上有一个 spark-submit 二进制文件和 YARN 客户端配置设置。它使用给定的选项调用 spark-submit 命令,阻塞直到作业完成并返回最终状态。好消息是,它还流式传输来自 spark-submit 命令 stdout 和 stderr 的日志。

你真的只需要配置一个 yarn-site.xml 文件,我相信,为了 spark-submit --master yarn --deploy-mode客户上类。

一旦在 YARN 中部署了 Application Master,Spark 就会在本地运行到 Hadoop 集群。

如果你真的想要,你可以添加一个 hdfs-site.xmlhive-site.xml也可以从 Airflow 提交(如果可能的话),否则至少 hdfs-site.xml文件应该从 YARN 容器类路径中获取

(2) 使用 SSHOperator : 使用此操作符在远程服务器上运行 bash 命令(通过 paramiko 库使用 SSH 协议(protocol)),如 spark-submit .这种方法的好处是您不需要复制 hdfs-site.xml或维护任何文件。

(3) 使用 SimpleHTTPOperator与李维 :Livy 是一个开源 REST 接口(interface),用于从任何地方与 Apache Spark 交互。您只需要进行 REST 调用。

我个人更喜欢 SSH运营商 :)

关于apache-spark - 有没有办法在运行 master 的不同服务器上提交 spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53344285/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com