gpt4 book ai didi

hadoop - 如何在带有某些列作为分区的配置单元中加载csv数据?

转载 作者:行者123 更新时间:2023-12-02 22:07:46 25 4
gpt4 key购买 nike

假设我有这样的数据

player_id, stat_id1, stat_id2, year,team_id

我可以在Hive中创建一个这样的表,然后加载数据。
CREATE TABLE data
(`player_id` INT,stat_id1 INT,`stat_id2` INT,`year` int,`team_id` INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
;

假设我要创建两个分区,即team_id。我该如何在 hive 中做到这一点?有什么办法可以更改上面的命令来实现?还是我必须遵循其他步骤?

最佳答案

在DDL中添加partition子句应创建2个分区

CREATE TABLE data
(
`player_id` INT,
stat_id1 INT,
`stat_id2` INT,
`year` int,
`team_id` INT)
PARTITIONED BY (year int, team_id int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
;

您可能需要具有作为临时表的上面的表,以便映射您的输入数据,然后将该表中的数据加载到新表中,以使用insert命令对其进行分区。

关于hadoop - 如何在带有某些列作为分区的配置单元中加载csv数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35072729/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com