gpt4 book ai didi

apache-spark - pyspark作业参数中的--archives,-files,py-files之间有什么区别

转载 作者:行者123 更新时间:2023-12-04 04:58:50 52 4
gpt4 key购买 nike

--archives--files--py-filessc.addFilesc.addPyFile相当混乱,有人可以清楚地解释这些吗?

最佳答案

这些选择确实分散在各处。
通常,通过--files--archives添加数据文件,并通过--py-files添加代码文件。后者将被添加到类路径(c.f。,here)中,以便您导入和使用。
可以想象,CLI参数实际上是由addFileaddPyFiles函数处理的(c.f。,here

来自http://spark.apache.org/docs/latest/programming-guide.html


在后台,pyspark调用更通用的spark-submit脚本。
您可以通过将逗号分隔的列表传递给--py-files来将Python .zip,.egg或.py文件添加到运行时路径。


来自http://spark.apache.org/docs/latest/running-on-yarn.html


--files--archives选项支持使用#与Hadoop类似来指定文件名。例如,您可以指定:--files localtest.txt#appSees.txt,这会将您本地命名为localtest.txt的文件上传到HDFS,但这将通过名称appSees.txt链接到该文件,并且您的应用程序应使用在YARN上运行时,将其命名为appSees.txt以进行引用。


来自http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=addpyfile#pyspark.SparkContext.addPyFile


addFile(path)在每个节点上添加要与此Spark作业一起下载的文件。传递的路径可以是本地文件,HDFS中的文件(或其他Hadoop支持的文件系统)或HTTP,HTTPS或FTP URI。
addPyFile(path)为将来在此SparkContext上执行的所有任务添加.py或.zip依赖项。传递的路径可以是本地文件,HDFS中的文件(或其他Hadoop支持的文件系统)或HTTP,HTTPS或FTP URI。

关于apache-spark - pyspark作业参数中的--archives,-files,py-files之间有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38066318/

52 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com