gpt4 book ai didi

hadoop - 尽管设置了 spark.yarn.conf,但仍上传了 Spark 程序集文件

转载 作者:可可西里 更新时间:2023-11-01 15:05:19 25 4
gpt4 key购买 nike

我有时通过相对较慢的连接使用 spark-submit 将作业提交到在 Yarn 上运行的 Spark 集群。为了避免为每个作业上传 156MB 的 spark-assembly 文件,我将配置选项 spark.yarn.jar 设置为 HDFS 上的文件。但是,这并没有避免上传,而是从 HDFS Spark 目录中取出程序集文件并将其复制到应用程序目录中:

$:~/spark-1.4.0-bin-hadoop2.6$ bin/spark-submit --class MyClass --master yarn-cluster --conf spark.yarn.jar=hdfs://node-00b/user/spark/share/lib/spark-assembly.jar my.jar
[...]
15/07/06 21:25:43 INFO yarn.Client: Uploading resource hdfs://node-00b/user/spark/share/lib/spark-assembly.jar -> hdfs://nameservice1/user/XXX/.sparkStaging/application_1434986503384_0477/spark-assembly.jar

本以为汇编文件应该在HDFS中复制,但实际上它似乎是再次下载和上传,这是非常适得其反的。有什么提示吗?

最佳答案

关于hadoop - 尽管设置了 spark.yarn.conf,但仍上传了 Spark 程序集文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31254320/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com