gpt4 book ai didi

apache-spark - spark 中的 Hdfs 文件访问

转载 作者:可可西里 更新时间:2023-11-01 15:50:25 41 4
gpt4 key购买 nike

我正在开发一个应用程序,我从 hadoop 读取一个文件,处理并将数据存储回 hadoop。我很困惑什么应该是正确的 hdfs 文件路径格式。从 spark shell 读取 hdfs 文件时,如

val file=sc.textFile("hdfs:///datastore/events.txt")

它工作正常,我能够阅读它。

但是当我将 jar 加到包含相同代码集的 yarn 时,它给出了错误提示

org.apache.hadoop.HadoopIllegalArgumentException: Uri without authority: hdfs:/datastore/events.txt

当我将名称节点 ip 添加为 hdfs://namenodeserver/datastore/events.txt 时一切正常。

我对这种行为有点困惑,需要指导。

注意:我使用的是 aws emr 设置,所有配置都是默认的。

最佳答案

如果您想使用 sc.textFile("hdfs://..."),您需要提供完整路径(绝对路径),在您的示例中为“nn1home:8020/..”

如果你想简单点,那就用sc.textFile("hdfs:/input/war-and-peace.txt")

只有一个/

我认为它会起作用。

关于apache-spark - spark 中的 Hdfs 文件访问,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50172685/

41 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com