gpt4 book ai didi

hive - Parquet Hive 表 : array column not queryable in Impala

转载 作者:行者123 更新时间:2023-12-01 11:25:53 26 4
gpt4 key购买 nike

虽然 Impala 比 Hive 快得多,但我们使用 Hive 是因为它支持复杂(嵌套)数据类型,例如数组和映射。

我注意到 Impala,截至 CDH5.5 , 现在支持复杂的数据类型。因为也可以在 Impala 中运行 Hive UDF,所以我们可以在 Impala 中做任何我们想做的事情,而且速度要快得多。这是个好消息!

当我浏览文档时,我发现 Impala 希望数据以 Parquet 格式存储。我的原始数据恰好是一个双列 CSV,其中第一列是一个 ID,第二列是一个以竖线分隔的字符串数组,例如:

123,ASDFG|SDFGH|DFGHJ|FGHJK
234,QWERT|WERTY|ERTYU

已创建 Hive 表:

CREATE TABLE `id_member_of`(
`id` INT,
`member_of` ARRAY<STRING>)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '|'
LINES TERMINATED BY '\n'
STORED AS INPUTFORMAT
'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

原始数据加载到 Hive 表中:

LOAD DATA LOCAL INPATH 'raw_data.csv' INTO TABLE id_member_of;

已创建表的 Parquet 版本:

CREATE TABLE `id_member_of_parquet` (
`id` STRING,
`member_of` ARRAY<STRING>)
STORED AS PARQUET;

CSV 支持表中的数据已插入到 Parquet 表中:

INSERT INTO id_member_of_parquet SELECT id, member_of FROM id_member_of;

Parquet 表现在可以在 Hive 中查询:

hive> select * from id_member_of_parquet;
123 ["ASDFG","SDFGH","DFGHJ","FGHJK"]
234 ["QWERT","WERTY","ERTYU"]

奇怪的是,当我在 Impala 中查询同一个 Parquet 支持的表时,它没有返回数组列:

[hadoop01:21000] > invalidate metadata;
[hadoop01:21000] > select * from id_member_of_parquet;
+-----+
| id |
+-----+
| 123 |
| 234 |
+-----+

问题:数组列怎么了?你能看出我做错了什么吗?

最佳答案

结果非常简单:我们可以通过将数组添加到带有点的 FROM 来访问该数组,例如

Query: select * from id_member_of_parquet, id_member_of_parquet.member_of
+-----+-------+
| id | item |
+-----+-------+
| 123 | ASDFG |
| 123 | SDFGH |
| 123 | DFGHJ |
| 123 | FGHJK |
| 234 | QWERT |
| 234 | WERTY |
| 234 | ERTYU |
+-----+-------+

关于hive - Parquet Hive 表 : array column not queryable in Impala,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37243714/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com