gpt4 book ai didi

azure - HIVE 和 Parquet 文件

转载 作者:行者123 更新时间:2023-12-02 20:49:37 25 4
gpt4 key购买 nike

我有一组 Parquet 文件,我想将它们添加到 HDInsight 中的 HIVE 中。
我创建了一个 Parquet 表(当然在这里简化了):

create external table parq_test ( 
A int,
B int,
C int
)
STORED AS PARQUET
LOCATION '/data/parq_test'
我可以将数据插入此文件:
insert into parq_test values ( 1,2,3 );
此文件夹中由 hive 生成​​的文件具有以下 parquet 模式:
message hive_schema {
optional int32 a;
optional int32 b;
optional int32 c;
}
如果我复制具有相同形状的架构的其他文件:
message hive_schema {
optional int32 a;
optional int32 b;
optional int32 c;
}
我收到以下错误:
      org.apache.hive.service.cli.HiveSQLException: java.io.IOException: java.lang.IllegalStateException: Group type [message schema {
optional int32 a;
optional int32 b;
optional int32 c;
}
] does not contain requested field: optional int32 a
我对这个错误感到困惑,因为它非常清楚地包含请求的字段?不能直接将parquet文件添加到外部表目录吗?
编辑:编辑。

最佳答案

我也遇到了类似的问题。在进一步的研究中发现“pyarrow”是python上parquet的默认引擎。在使用这个引擎在 python 中创建 parquet 文件后,我能够在 Hive 中查询它们

关于azure - HIVE 和 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46450103/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com