gpt4 book ai didi

hadoop - 具有 Parquet 数据的 Hive 外部表未选择数据

转载 作者:可可西里 更新时间:2023-11-01 16:21:40 26 4
gpt4 key购买 nike

我有包含 Parquet 数据的 Hive 外部表。这里没有使用压缩。我正在使用 spark 作业将数据( Parquet 文件)写入 HDFS 目录。但是当我尝试从表中选择数据时,出现以下错误/警告并且没有出现输出。我确信这是一个常见问题。请告诉我如何克服这个问题?

hive - 1.2.1000.2.5.0.0-1245hdp-2.5.0.0-1245 Spark 版本1.6.2

Jun 1, 2017 5:04:27 PM WARNING: org.apache.parquet.CorruptStatistics: Ignoring statistics because created_by could not be parsed (see PARQUET-251): parquet-mr version 1.6.0 org.apache.parquet.VersionParser$VersionParseException: Could not parse created_by: parquet-mr version 1.6.0 using format: (.+) version ((.) )?(build ?(.)) at org.apache.parquet.VersionParser.parse(VersionParser.java:112) at org.apache.parquet.CorruptStatistics.shouldIgnoreStatistics(CorruptStatistics.java:60) at org.apache.parquet.format.converter.ParquetMetadataConverter.fromParquetStatistics(ParquetMetadataConverter.java:263)

好像是因为spark job中使用的parquet writer版本和Hive中读取的parquet writer版本不一样,有差距。在这里我们可以看到在 Hive 中用于读取的版本是 parquet-mr 版本 1.6.0

现在,如果有人能告诉我如何更改 spark 作业中使用的 parquet writer 版本或如何更改 Hive parquet reader 版本,我可以尝试解决此问题。

最佳答案

您看到的异常是无害的。

关于hadoop - 具有 Parquet 数据的 Hive 外部表未选择数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44300398/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com