gpt4 book ai didi

apache-spark - 带有 --files 参数错误的 PySpark spark-submit 命令

转载 作者:行者123 更新时间:2023-12-05 09:15:30 26 4
gpt4 key购买 nike

我正在使用以下命令在 Spark 2.3 集群中运行 PySpark 作业。

spark-submit 
--deploy-mode cluster
--master yarn
--files ETLConfig.json
PySpark_ETL_Job_v0.2.py

ETLConfig.json 有一个参数传递给 PySpark 脚本。我在主 block 中引用这个配置 json 文件,如下所示:

configFilePath = os.path.join(SparkFiles.getRootDirectory(), 'ETLConfig.json')
with open(configFilePath, 'r') as configFile:
configDict = json.load(configFile)

但是,该命令抛出以下错误。

No such file or directory: u'/tmp/spark-7dbe9acd-8b02-403a-987d-3accfc881a98/userFiles-4df4-5460-bd9c-4946-b289-6433-drgs/ETLConfig.json'

我可以知道我的脚本有什么问题吗?我也尝试使用 SparkFiles.get() 命令,但它也没有用。

最佳答案

您使用集群 部署模式。在这种情况下,--files 路径不是指您用来提交的机器上的本地路径,而是指用于生成驱动程序的工作程序上的本地路径,它是您的任意节点集群。

如果你想用集群模式分发文件,你应该将这些文件存储在每个节点都可以访问的存储中。例如,您可以使用:

  • HTTP/HTTPS 网址。
  • HDFS 网址。

关于apache-spark - 带有 --files 参数错误的 PySpark spark-submit 命令,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52352900/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com