gpt4 book ai didi

hadoop - Spark/Hadoop 无法读取根文件

转载 作者:可可西里 更新时间:2023-11-01 14:32:34 24 4
gpt4 key购买 nike

我正在尝试通过 spark 读取只有我(和 root)可以读/写的文件夹中的文件,首先我启动 shell:

spark-shell --master yarn-client

然后我:

val base = sc.textFile("file///mount/bases/FOLDER_LOCKED/folder/folder/file.txt")
base.take(1)

出现如下错误:

2018-02-19 13:40:20,835 WARN scheduler.TaskSetManager:
Lost task 0.0 in stage 0.0 (TID 0, mydomain, executor 1):
java.io.FileNotFoundException: File file: /mount/bases/FOLDER_LOCKED/folder/folder/file.txt does not exist
at org.apache.hadoop.fs.RawLocalFileSystem.deprecatedGetFileStatus(RawLocalFileSystem.java:611)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileLinkStatusInternal(RawLocalFileSystem.java:824)
at org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:601)
...

我怀疑,由于 yarn/hadoop 是与用户 hadoop 一起启动的,因此无法在此文件夹中进一步获取文件。我该如何解决这个问题?

OBS:此文件夹不能对其他用户打开,因为它有私有(private)数据。

EDIT1:这个/mount/bases 是一个网络存储,使用 cifs 连接。

EDIT2:hdfs 和 yarn 由用户 hadoop 启动

最佳答案

由于 hadoop 是启动 hdfs 和 yarn 的用户,他是将尝试在作业中打开文件的用户,因此必须授权访问该文件夹,幸运的是 hadoop 会先检查哪个用户正在执行作业允许访问文件夹/文件,因此您不会为此冒险。

关于hadoop - Spark/Hadoop 无法读取根文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48870955/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com