gpt4 book ai didi

hadoop - 如何将 Hive 分区列和值插入数据( Parquet )文件?

转载 作者:行者123 更新时间:2023-12-02 20:16:38 25 4
gpt4 key购买 nike

请求:- 如何将分区键对插入每个 parquet将数据插入 Hive/Impala 时的文件 table 。
Hive 表 DDL
[
创建外部表 db.tbl_name ( col1 string, col2 string)
分区 BY(date_col 字符串)
存储为 Parquet
位置'hdfs_path/db/tbl_name'
]
让我们将数据插入到这个 hive 表中。
插入 db.tbl_name 分区 (date_col=2020-07-26) 值 ('test1_col1','test1_col2')
插入记录后,让我们使用 parquet-tools 或任何其他工具将数据查看到 parquet 文件中。
parquet-tool cat hdfs_path/db/tbl_name/date_col=2020-07-26/parquet_file.parquet
下面将是 View 。

**********************
col1 = test1_col1
col2 = test1_col2
**********************
但是,如果我在 Hive/Impala 上执行 HQL 查询,那么它将从元数据中读取分区值。
**Query**- select * from db.tbl_name
**Result** -
col1 col2 date_col
test1_col1 test1_col2 2020-07-26
问题 - 有什么方法可以在 parquet 文件中查看分区列名称和值,如下所示。
col1 = test1_col1 
col2 = test1_col2
date_col = 2020-07-26

最佳答案

请使用这个 -INSERT INTO db.tbl_name PARTITION (date_col) VALUES ('test1_col1','test1_col2','2020-07-26');总是在上面的括号()中提到分区名称。然后在 values/select 子句中,最后对分区列进行排序。
这就是您需要插入到 hive/impala 分区表中的所有内容。

关于hadoop - 如何将 Hive 分区列和值插入数据( Parquet )文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63031057/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com