gpt4 book ai didi

apache-spark - 从pyspark读取hdfs中的文件

转载 作者:行者123 更新时间:2023-12-04 02:56:21 29 4
gpt4 key购买 nike

我正在尝试读取我的 hdfs 中的文件。这是我的 hadoop 文件结构的展示。

hduser@GVM:/usr/local/spark/bin$ hadoop fs -ls -R /
drwxr-xr-x - hduser supergroup 0 2016-03-06 17:28 /inputFiles
drwxr-xr-x - hduser supergroup 0 2016-03-06 17:31 /inputFiles/CountOfMonteCristo
-rw-r--r-- 1 hduser supergroup 2685300 2016-03-06 17:31 /inputFiles/CountOfMonteCristo/BookText.txt

这是我的 pyspark 代码:
from pyspark import SparkContext, SparkConf

conf = SparkConf().setAppName("myFirstApp").setMaster("local")
sc = SparkContext(conf=conf)

textFile = sc.textFile("hdfs://inputFiles/CountOfMonteCristo/BookText.txt")
textFile.first()

我得到的错误是:
Py4JJavaError: An error occurred while calling o64.partitions.
: java.lang.IllegalArgumentException: java.net.UnknownHostException: inputFiles

这是因为我错误地设置了 sparkContext 吗?我正在通过虚拟机在 ubuntu 14.04 虚拟机中运行它。

我不确定我在这里做错了什么......

最佳答案

如果没有提供配置,您可以通过完整路径访问 HDFS 文件。(如果 hdfs 位于本地环境中,则 namenodehost 是您的本地主机)。

hdfs://namenodehost/inputFiles/CountOfMonteCristo/BookText.txt

关于apache-spark - 从pyspark读取hdfs中的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35835649/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com