apache-spark - 从 SparkSession.read() 获取 "org.apache.spark.sql.AnalysisException: Path does not exist"-6ren

apache-spark - 从 SparkSession.read() 获取 "org.apache.spark.sql.AnalysisException: Path does not exist"

转载作者：行者123 更新时间：2023-12-04 15:51:54

26

4

<分区>

我正在尝试在客户端模式下读取 spark-submit 提交给 yarn 集群的文件。将文件放入 HDFS 不是一种选择。这是我所做的:

def main(args: Array[String]) {
   if (args != null && args.length > 0) {
        val inputfile: String = args(0)

        //get filename: train.csv
        val input_filename = inputfile.split("/").toList.last 

        val d = SparkSession.read
                .option("header", "true")
                .option("inferSchema", "true")
                .csv(SparkFiles.get(input_filename))
        d.show() 
   }   
}

并以这种方式提交给 yarn :

spark2-submit \
--class "com.example.HelloWorld" \
--master yarn --deploy-mode client \
--files repo/data/train.csv \
--driver-cores 2 helloworld-assembly-0.1.jar repo/data/train.csv

但我有一个异常(exception):

Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://xxxxx.xxxxx.xxxx.com:8020/tmp/spark-db3ee991-7f3d-427c-8479-aa212f906dc5/userFiles-040293ee-0d1f-44dd-ad22-ef6fe729bd49/train.csv;

我也试过:

val input_filename_1 = """file://""" + SparkFiles.get(input_filename)
println(input_filename_1)

SparkSession.read
  .option("header", "true")
  .option("inferSchema", "true")
  .csv(input_filename_1)

仍然有类似的错误:

 file:///tmp/spark-fbd46e9d-c450-4f86-8b23-531e239d7b98/userFiles-8d129eb3-7edc-479d-aeda-2da98432fc50/train.csv
 Exception in thread "main" org.apache.spark.sql.AnalysisException: Path does not exist: file:/tmp/spark-fbd46e9d-c450-4f86-8b23-531e239d7b98/userFiles-8d129eb3-7edc-479d-aeda-2da98432fc50/train.csv;

26

4

0

文章推荐： spring-cloud-config - spring cloud 配置多个配置文件

文章推荐： python - PyPDF2:在内存中连接pdf

文章推荐：在 typescript 中找不到 powerbi 全局对象

shell - echo PATH $PATH\$PATH 有什么作用？
这是我的作业 What does echo PATH $PATH \$PATH do? 我不知道它是如何工作的。 echo PATH打印“路径” $PATH创建一个“PATH”变量......也许？
python - path = path + [node1], path += [node1] 和 path.append(node1) 的区别
我想弄清楚两者之间的区别路径=路径+[节点1] 路径+=[节点1] path.append(node1) 我得到的是 path = path + [node1] 的正确路径，但不是其他两个。 def
python - 序列化错误 "c:\path\path"[Errno 13] 权限被拒绝 : C:\\path\\path
我使用 Robot 框架在 Ride 中创建了一个测试用例。运行时出现错误。我更新了python的路径。我更新了库和 Ride。我换了文件夹还是不行 *** Settings *** Documen
path - 自定义路径lib.Path()
我尝试使用额外的功能自定义 pathlib.Path()。特别是，我真的很喜欢使用上下文管理器作为移入和移出目录的方法。我一直在使用它，但我似乎在让 Path() 与自定义上下文管理器一起工作时遇到错
python - 为什么使用 sys.path.append(path) 而不是 sys.path.insert(1, path)？
编辑:基于 Ulf Rompe 的评论，重要的是使用“1”而不是“0”，否则您将破坏 sys.path . 我已经做 python 很长一段时间了(一年多)，我总是很困惑为什么人们建议你使用 sys.
path - 我可以使用 `std::path::Path` 的 `strip_prefix` 来替换动态前缀吗？
我有兴趣这样做的原因是因为我的路径中有一部分将保持不变，但我希望将其与其所有父部分一起删除。所以如果我们说， some/unknown/path/foo/bar/baz 我想回去 bar/baz 但
python - os.path.abspath(os.path.join(os.path.dirname(__file__), os.path.pardir)) 是什么意思？ Python
在几个 SO 的问题中，有这些行可以访问代码的父目录，例如os.path.join(os.path.dirname(__file__)) returns nothing和 os.path.join(o
python - 导出 PATH 命令 - 'export PATH=~/anaconda3/bin:$PATH'
我已经在我的 Linux 中安装了 anaconda 来导入 python 包。安装 anaconda 后，我无法在 python 中使用 anaconda，经过一番搜索后我发现输入此命令我能够使用
c# - new FileInfo(path).Name 与 Path.GetFileName(path)
哪个更好用，为什么？我的意思是这两个命令在哪些方面不同以及如何不同？性能、可读性…… new FileInfo(path).Name 或 Path.GetFileName(path) 最佳答案因为您
android - java.lang.SecurityException : Unsupported path path/path/JPEG_5e3bbe8ed6c75_24741_. jpg
这不适用于某些设备。在三星设备中，他们不允许使用下载管理器下载文件。我已经在 list 中定义了权限并获得了运行时权限。 DownloadManager downloadManager = (Do
java - 加入 nio.path 与 Paths.get() 或 Path.resolve()
我想知道在这个例子中使用 Paths.get() 和 Path.resolve 有什么区别: public static void main(String[] args) { Path p1
path - SVG 可以同时包含绝对命令和相对命令吗？
目前我正在开发一个转换由 Inkscape 创建的 svg-paths 的应用程序。现在我不清楚关于绝对和相对路径组合的路径规范。规范是否说明了同时包含相对和绝对坐标的路径定义？特别是关于绝对贝塞尔
path - 在 $PATH 上查找命令
我正在编写脚本，我需要在用户的 $PATH 上查找命令并获取该命令的完整路径。问题是我不知道用户的登录 shell 是什么，或者他们的 do 文件中可能有什么奇怪的东西。我将 bourne shell
path - Metalsmith:如何使用 path()？
Metalsmith 的文档对 path() 函数没有太多解释:#path(paths...): Resolve any amount of paths... relative to the work
path - Wine PATH 通过命令行而不是持久的
我知道我可以通过 regedit 更改我的 wine PATH，但实际上我只需要为一次运行更改 PATH。例如，我的软件名为frontend.exe，这取决于example/mylib.dll，我需
path - 什么是 "canonical path"？
因此，绝对路径是一种到达某个文件或位置的方法，描述了它的完整路径、完整路径，并且它依赖于操作系统(Windows 和 Linux 的绝对路径，例如，不同)。另一方面，相对路径是从当前位置 ..(两个点
path - 为什么使用 $PATH 以及它是什么
我对编程有点陌生(不是真的，但我仍在学习 - 我们不是吗？)。虽然我了解 Java 和 Python，并且了解 C、C++、JS、C#、HTML、CSS 等(并且我可以在终端中很好地导航)，但我不熟悉
path - 为什么使用 $PATH 以及它是什么
我对编程有点陌生(不是真的，但我仍在学习 - 我们不是吗？)。虽然我了解 Java 和 Python，并且了解 C、C++、JS、C#、HTML、CSS 等(并且我可以在终端中很好地导航)，但我不熟悉
path - 应用程序特定的 PATH 变量
这个问题不太可能对任何 future 的访客有帮助；它只与一个较小的地理区域、一个特定的时间点或一个非常狭窄的情况相关，通常不适用于全世界的互联网受众。如需帮助使此问题更广泛适用，visit the
Bash - $PATH 和 ${PATH}
使用环境变量(如 PATH)作为 $PATH 或 ${PATH} 有什么区别？最佳答案在大多数情况下没有区别。唯一重要的是你是否想在扩展后包含尾随文本。例如，假设您的 PATH 包含字符串 FOO

首页

博学

6Ren·AI

商城

apache-spark - 从 SparkSession.read() 获取 "org.apache.spark.sql.AnalysisException: Path does not exist"