gpt4 book ai didi

hadoop - 如何从 hdfs 符号链接(symbolic link)读取多个文本文件

转载 作者:可可西里 更新时间:2023-11-01 16:12:07 31 4
gpt4 key购买 nike

我正在尝试从 spark 中读取 hdfs 符号链接(symbolic link)的多个部分文件。如果路径是物理路径,我可以使用通配符 (*) 从路径中读取多个文件例如sparkContext.textFile(/some/path/file_123321_00/part-r-000*)

但是我已经在 hdfs 上创建了指向这个名为“fullset”的文件夹的符号链接(symbolic link)。当我使用
/some/path/fullset/part-r-000* 它无法检测到任何路径。我在两条路径上都尝试了 hadoop fs -ls。第一个可以工作,但是带有符号链接(symbolic link)的一个不能按预期工作。
我们正在使用 MapR 发行版,它允许我们创建这样的符号链接(symbolic link),但我现在不确定从 Spark 读取它的最佳方式是什么。我们创建符号链接(symbolic link)的原因是将其指向最新的数据集。欢迎任何建议。谢谢

最佳答案

MapR 特定的解决方法。注意使用 MapRFileStatus 而不是 hadoop FileStatus。

文件系统 fs = FileSystem.get(conf);
MapRFileStatus fst = (MapRFileStatus)fs.getFileStatus(path);
路径目标 = fst.getSymlink();

关于hadoop - 如何从 hdfs 符号链接(symbolic link)读取多个文本文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28756138/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com