gpt4 book ai didi

airflow - 无法使用 SparkSubmitOperator 执行 Spark 作业

转载 作者:行者123 更新时间:2023-12-02 04:06:40 24 4
gpt4 key购买 nike

我可以使用 BashOperator 运行 Spark 作业,但我想使用 Spark 使用 SparkSubmitOperator 独立模式

<小时/>

Here's我的 DAG 用于 SparkSubmitOperatorstack-trace

args = {
'owner': 'airflow',
'start_date': datetime(2018, 5, 24)
}
dag = DAG('spark_job', default_args=args, schedule_interval="*/10 * * * *")

operator = SparkSubmitOperator(
task_id='spark_submit_job',
application='/home/ubuntu/test.py',
total_executor_cores='1',
executor_cores='1',
executor_memory='2g',
num_executors='1',
name='airflow-spark',
verbose=False,
driver_memory='1g',
conf={'master':'spark://xx.xx.xx.xx:7077'},
dag=dag,
)
<小时/>

查看 spark_submit_hook 的源代码似乎 _resolve_connection() 总是设置 master=yarn。如何通过 Spark 独立主 URL 更改 master 属性值?我可以设置哪些属性来在独立模式下运行 Spark 作业?

最佳答案

您可以使用 Airflow Web UI 创建新连接或更改 spark-default连接。

Change Spark-default connection in Airflo

大师可以是local , yarn , spark://HOST:PORT , mesos://HOST:PORTk8s://https://<HOST>:<PORT> .

您还可以在附加项中提供以下命令:

{"queue": "root.default", "deploy_mode": "cluster", "spark_home": "", "spark_binary": "spark-submit", "namespace": "default"}

Airflow Spark Submit Extras

“spark-submit”二进制文件应位于 PATH 中,或者在连接的额外部分中设置 Spark-home。

关于airflow - 无法使用 SparkSubmitOperator 执行 Spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50532799/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com