gpt4 book ai didi

scala - 在 Spark 中读取文件时出错

转载 作者:行者123 更新时间:2023-12-02 03:25:37 24 4
gpt4 key购买 nike

我很难弄清楚为什么 Spark 不访问我添加到上下文中的文件。下面是我在 repl 中的代码:

scala> sc.addFile("/home/ubuntu/my_demo/src/main/resources/feature_matrix.json")

scala> val featureFile = sc.textFile(SparkFiles.get("feature_matrix.json"))

featureFile: org.apache.spark.rdd.RDD[String] = /tmp/spark/ubuntu/spark-d7a13d92-2923-4a04-a9a5-ad93b3650167/feature_matrix.json MappedRDD[1] at textFile at <console>:60

scala> featureFile.first()
org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: cfs://172.30.26.95/tmp/spark/ubuntu/spark-d7a13d92-2923-4a04-a9a5-ad93b3650167/feature_matrix.json

该文件确实存在于 /tmp/spark/ubuntu/spark-d7a13d92-2923-4a04-a9a5-ad93b3650167/feature_matrix.json

感谢任何帮助。

最佳答案

如果您正在使用addFile,那么您需要使用get 来检索它。此外,addFile 方法是惰性的,因此很可能在您真正调用 first 之前,它并没有被放置在您找到它的位置,所以您正在创建这个一种圈子。

综上所述,我不知道使用 SparkFiles 作为第一个操作是否会成为一个聪明的主意。使用 --filesSparkSubmit 之类的东西,文件将放在您的工作目录中。

关于scala - 在 Spark 中读取文件时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30521968/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com