gpt4 book ai didi

scala - 使用Spark/Scala从HDFS读取CSV

转载 作者:行者123 更新时间:2023-12-02 19:55:44 28 4
gpt4 key购买 nike

我正在使用Spark 2.3.0和hadoop 2.9.1
我正在尝试使用 Spark 加载位于hdfs中的CSV文件

scala> val dataframe = spark.read.format("com.databricks.spark.csv").option("header","true").schema(schema).load("hdfs://127.0.0.1:50075/filesHDFS/data.csv")

但是我收到以下错误:
2018-11-14 11:47:58 WARN  FileStreamSink:66 - Error while looking for metadata directory.
java.io.IOException: Failed on local exception: com.google.protobuf.InvalidProtocolBufferException: Protocol message end-group tag did not match expected tag.; Host Details : local host is: "Desktop-Presario-CQ42-Notebook-PC/127.0.0.1"; destination host is: "localhost":50070;

最佳答案

代替使用127.0.0.1,使用默认的FS名称。您可以在core-site.xml文件中的fs.defaultFS属性下找到它。

它应该可以解决您的问题。

关于scala - 使用Spark/Scala从HDFS读取CSV,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53307620/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com