gpt4 book ai didi

apache-spark - Spark 错误阅读 Parquet

转载 作者:行者123 更新时间:2023-12-04 15:57:23 24 4
gpt4 key购买 nike

我们正在使用 apache spark,我们将 json 文件保存为 hdfs 中的 gzip 压缩 Parquet 文件。但是,当读回它们以生成数据帧时,某些文件(但不是全部)会引发以下异常:

ERROR Executor: Exception in task 2.0 in stage 72.0 (TID 88)
org.apache.parquet.io.ParquetDecodingException: Can not read value at 351 in
block 0 in file file:/path/to/file [...]
Caused by: java.lang.ClassCastException:
org.apache.spark.sql.catalyst.expressions.MutableLong cannot be cast to
org.apache.spark.sql.catalyst.expressions.MutableDouble

非常感谢任何帮助!

最佳答案

当您尝试同时读取具有不同模式的 Parquet 文件时,会发生这种错误。尝试让/convert 所有源文件具有相同的架构或同时转换所有源文件。

关于apache-spark - Spark 错误阅读 Parquet ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51300978/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com