gpt4 book ai didi

hadoop - 无法在Ubuntu中使用Spark Shell从HDFS读取文件

转载 作者:行者123 更新时间:2023-12-02 21:16:28 32 4
gpt4 key购买 nike

我已经在ubuntu virtualbox上以独立模式安装了spark和hadoop,以进行学习。我可以在hdfs上执行普通的hadoop mapreduce操作,而无需使用spark。但是当我在spark-shell中使用以下代码时,

val file=sc.textFile("hdfs://localhost:9000/in/file")
scala>file.count()

我得到 “输入路径不存在”。 错误。 core-site.xml具有fs.defaultFS,其值为hdfs:// localhost:9000。如果我给localhost没有端口号,则会在默认端口8020上侦听时收到“连接被拒绝”错误。主机名和localhost在etc / hosts中设置为回送地址127.0.0.1和127.0.1.1。
请让我知道如何解决此问题。
提前致谢!

最佳答案

可能您的配置没问题,但是文件丢失或出现意外情况
位置...

1)尝试:

sc.textFile("hdfs://in/file")
sc.textFile("hdfs:///user/<USERNAME>/in/file")

使用USERNAME = hadoop或您自己的用户名

2)在命令行(在spark-shell之外)上尝试访问该目录/文件:
hdfs dfs -ls /in/file

关于hadoop - 无法在Ubuntu中使用Spark Shell从HDFS读取文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38649886/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com