gpt4 book ai didi

file - 为什么 "sc.addFile"和 "spark-submit --files"没有将本地文件分发给所有工作人员?

转载 作者:行者123 更新时间:2023-12-04 14:56:29 24 4
gpt4 key购买 nike

我有一个 CSV 文件“test.csv”,我试图将其复制到集群上的所有节点。

我有一个 4 节点 apache-spark 1.5.2 独立集群。有 4 个工作器,其中一个节点也具有主/驱动程序以及工作器。

如果我运行:
$SPARK_HOME/bin/pyspark --files=./test.csv或从 REPL 界面内执行 sc.addFile('file://' + '/local/path/to/test.csv')
我看到 Spark 日志如下:

16/05/05 15:26:08 INFO Utils: Copying /local/path/to/test.csv to /tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b/userFiles-a4cb1723-e118-4f0b-9f26-04be39e5e28d/test.csv
16/05/05 15:26:08 INFO SparkContext: Added file file:/local/path/to/test.csv at http://192.168.1.4:39578/files/test.csv with timestamp 1462461968158

在主/驱动程序节点上的单独窗口中,我可以使用 ls 轻松定位文件,即( ls -al /tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b/userFiles-a4cb1723-e118-4f0b-9f26-04be39e5e28d/test.csv )。

但是,如果我登录到工作人员, /tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b/userFiles-a4cb1723-e118-4f0b-9f26-04be39e5e28d/test.csv 处没有文件甚至没有文件夹 /tmp/spark-5dd7fc83-a3ef-4965-95ba-1b62955fb35b
但是 apache spark web 界面显示作业正在运行并在所有节点上分配了内核,控制台中也没有出现其他警告或错误。

最佳答案

正如 Daniel 评论的那样,每个工作人员管理文件的方式不同。如果你想访问添加的文件,那么你可以使用 SparkFiles.get(file) .如果你想查看你的文件要去哪个目录,那么你可以打印 SparkFiles.getDirectory 的输出(现在 SparkFiles.getRootDirectory)

关于file - 为什么 "sc.addFile"和 "spark-submit --files"没有将本地文件分发给所有工作人员?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37055038/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com