gpt4 book ai didi

apache-spark - 如果文件夹为空,如何正确读取据称包含来自 Spark 的 Parquet 文件的文件夹

转载 作者:行者123 更新时间:2023-12-05 05:13:37 25 4
gpt4 key购买 nike

当我尝试读取一个据称包含 Parquet 格式文件的文件夹时,如果有数据,一切正常,如果没有数据,我会在第一行收到错误,后续代码不会执行

val hdfsData: DataFrame = spark.sqlContext.read.parquet(hdfsPath)
hdfsData.rdd.isEmpty() match ....
....

错误:org.apache.spark.sql.AnalysisException:无法推断 Parquet 的架构。必须手动指定。;

处理这种情况的正确方法是什么。

最佳答案

遇到了同样的问题,我用简单的尝试/成功/失败处理了它

val acc:DataFrame = session.createDataset(List("foo", "bar")).toDF()

val tryDf:Try[DataFrame] =
Try(
session.read.parquet("s3://path-to-bucket/path-to-folder-with-no-parquet-files-under-it/")
)
val resultDf:DataFrame = tryDf match {
case Success(df) => acc.union(df)
case Failure(f) => {
println(s"@@ handled ${ f }") // => @@ handled org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
acc
}
}

println(s"resultDf.count ${ resultDf.count }") // => 2```

关于apache-spark - 如果文件夹为空,如何正确读取据称包含来自 Spark 的 Parquet 文件的文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53423163/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com