gpt4 book ai didi

apache-spark - 通过在 Livy 上提交批处理 POST 方法并跟踪作业,使用 Airflow 进行 Spark 作业提交

转载 作者:行者123 更新时间:2023-12-03 23:53:14 25 4
gpt4 key购买 nike

我想使用 Airflow 来编排作业,包括运行一些 Pig 脚本、shell 脚本和 spark 作业。

主要是在 Spark 作业上,我想使用 Apache Livy 但不确定使用或运行 spark-submit 是否是个好主意。

即使我提交,使用 Airflow 跟踪 Spark 作业的最佳方法是什么?

最佳答案

我假设你是一个应用程序 JAR包含 Java/Scala您要提交到远程的代码 Spark簇。 Livy可以说是 的最佳选择远程 spark-submit 当针对其他可能性进行评估时:

  • 指定远程 master知识产权 :Requires修改全局配置/环境变量
  • 使用 SSHOperator :SSH连接可能会中断
  • 使用 EmrAddStepsOperator : 依赖于 EMR


  • 关于 跟踪
  • Livy only reports state而不是进度(完成阶段的百分比)
  • 如果你同意,你可以轮询 Livy服务器通过 REST API 并保持在控制台打印日志,这些将出现在 WebUI 的任务日志中 ( View Logs )


  • 其他注意事项
  • Livy doesn't support重复使用 SparkSessionPOST/batches请求
  • 如果这是必要的,您必须在 PySpark 中编写您的应用程序代码。并使用 POST/session请求


  • 引用
  • How to submit Spark jobs to EMR cluster from Airflow?
  • livy/examples/pi_app
  • rssanders3/livy_spark_operator_python_example


  • 有用的链接
  • How to submit Spark jobs to EMR cluster from Airflow?
  • Remote spark-submit to YARN running on EMR
  • 关于apache-spark - 通过在 Livy 上提交批处理 POST 方法并跟踪作业,使用 Airflow 进行 Spark 作业提交,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54228651/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com