hadoop - 如何在带有某些列作为分区的配置单元中加载csv数据？-6ren

hadoop - 如何在带有某些列作为分区的配置单元中加载csv数据？

转载作者：行者123 更新时间：2023-12-02 22:07:46

假设我有这样的数据

player_id, stat_id1, stat_id2, year,team_id

我可以在Hive中创建一个这样的表，然后加载数据。

CREATE TABLE data
(`player_id` INT,stat_id1 INT,`stat_id2` INT,`year` int,`team_id` INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
;

假设我要创建两个分区，即team_id。我该如何在 hive 中做到这一点？有什么办法可以更改上面的命令来实现？还是我必须遵循其他步骤？

最佳答案

在DDL中添加partition子句应创建2个分区

CREATE TABLE data
(
`player_id` INT,
stat_id1 INT,
`stat_id2` INT,
`year` int,
`team_id` INT)
PARTITIONED BY (year int, team_id int)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
;

您可能需要具有作为临时表的上面的表，以便映射您的输入数据，然后将该表中的数据加载到新表中，以使用insert命令对其进行分区。

关于hadoop - 如何在带有某些列作为分区的配置单元中加载csv数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35072729/

文章推荐： hadoop - 如何从Pig中的字符串替换 '$'？

文章推荐： javascript - 雪花存储过程作为所有者执行

文章推荐： sql - Hadoop/Hive-基于CASE语句将列归为一-艰难的格式

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

hadoop - 如何在带有某些列作为分区的配置单元中加载csv数据？