gpt4 book ai didi

apache-spark - Airflow + Kubernetes VS Airflow + Spark

转载 作者:行者123 更新时间:2023-12-02 11:35:42 25 4
gpt4 key购买 nike

就像我以前读过的一些文章一样。它说,在新的Kubernetes版本中,已经包含了Spark功能。但是通过一些不同的方式,例如使用KubernetesPodOperator而不是使用BashOperator / PythonOperator来执行SparkSubmit。

结合Airflow和Kubernetes的最佳实践是删除Spark并使用KubernetesPodOperator执行任务吗?

由于Kubernetes具有Spark所没有的AutoScaling功能,因此它的性能更好。

需要Kubernetes的专家来帮助我解释一下。我仍然是Kubernetes,Spark和Airflow的新手。 :slight_smile:

谢谢。

最佳答案

in new Kubernetes version, already include Spark capabilities



我认为你倒退了。新版本的Spark可以在Kubernetes集群中运行任务。

using KubernetesPodOperator instead of using BashOperator / PythonOperator to do SparkSubmit



使用Kubernetes将使您可以运行具有所需隔离条件的容器。

含义
  • 使用BashOperator,您必须将文件分发到某些共享文件系统或运行Airflow任务的所有节点。例如,spark-submit必须在所有Airflow节点上都可用。
  • 与Python相似,您会提供一些zip或egg文件,其中包括您的pip / conda依赖环境

  • remove Spark and using KubernetesPodOperator to execute the task



    仍然有充分的理由在Airflow上运行Spark,但是相反,您将打包一个Spark驱动程序容器,以针对Kubernetes集群在容器内执行 spark-submit。这样,您只需要安装 docker,而不是Spark(以及所有依赖项)

    Kubernetes have AutoScaling that Spark doesn’t have



    Spark确实有 Dynamic Resource Allocation...

    关于apache-spark - Airflow + Kubernetes VS Airflow + Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52751805/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com