gpt4 book ai didi

amazon-web-services - Spark 作业提交 : AWS EMR step or command line spark-submit

转载 作者:行者123 更新时间:2023-12-01 12:20:56 31 4
gpt4 key购买 nike

我正在使用 yarn 作为主节点和集群部署模式运行 AWS EMR 集群。我阅读的所有教程都使用 AWS CLI 在所谓的“Spark Steps”中使用类似于以下的命令运行 spark-submit:

aws emr add-steps --cluster-id j-2AXXXXXXGAPLF --steps Type=Spark,Name="Spark Program",ActionOnFailure=CONTINUE,Args=[--class,org.apache.spark.examples.SparkPi,/usr/lib/spark/lib/spark-examples.jar,10]

我的教授建议我通过 SCP 将文件移动到主节点,然后通过 SSH 运行应用程序来提交我的 Spark 应用程序:
ssh hadoop@ec2-xx-xxx-xxx-xx.compute-1.amazonaws.com

然后我将通过 shell 将数据文件放入 HDFS。然后最后我会简单地运行 spark-submit:
spark-submit --master yarn --deploy-mode cluster my_spark_app.py my_hdfs_file.csv

通过 AWS CLI 提交“Spark Step”与运行 spark-submit 有何区别?通过 SSH 进入主节点?通过从主节点提交作业,我的 Spark 应用程序是否仍会以分布式方式运行?

最佳答案

提交 EMR 步骤是使用亚马逊的自定义构建步骤提交流程,这是一个相对轻量级的包装抽象,它本身称为 spark-submit。从根本上说,几乎没有什么区别,但是如果您希望与平台无关(不再局限于 Amazon),请使用 SSH 策略或尝试使用 Livy 等更高级的提交策略,例如远程提交或我最喜欢的提交策略之一。

关于amazon-web-services - Spark 作业提交 : AWS EMR step or command line spark-submit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44015380/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com