gpt4 book ai didi

python - 运行 spark 作业 : python vs spark. 提交

转载 作者:行者123 更新时间:2023-12-01 05:50:16 25 4
gpt4 key购买 nike

运行 spark 作业的常用方法似乎是使用 spark-submit 如下( source ):

spark-submit --py-files pyfile.py,zipfile.zip main.py --arg1 val1

作为 Spark 的新手,我想知道为什么第一种方法比从 python ( example ) 运行它更受欢迎:
python pyfile-that-uses-pyspark.py

前一种方法产生更多 examples在谷歌搜索主题时,但没有明确说明原因。其实这里还有一个 Stack Overflow question其中一个答案,在下面重复,特别告诉 OP 不要使用 python 方法,但没有给出原因。

dont run your py file as: python filename.py instead use: spark-submit filename.py



有人可以提供见解吗?

最佳答案

@mint 您的评论或多或少是正确的。

The spark-submit script in Spark’s bin directory is used to launch applications on a cluster. It can use all of Spark’s supported cluster managers through a uniform interface so you don’t have to configure your application especially for each one.



据我了解,使用 python pyfile-that-uses-pyspark.py无法在集群上启动应用程序,或者至少这样做更困难。

关于python - 运行 spark 作业 : python vs spark. 提交,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55248030/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com