gpt4 book ai didi

hadoop - 根据列的子集过滤掉重复的行

转载 作者:可可西里 更新时间:2023-11-01 16:55:30 26 4
gpt4 key购买 nike

我有一些看起来像这样的数据:

ID,DateTime,Category,SubCategory
X01,2014-02-13T12:36:14,Clothes,Tshirts
X01,2014-02-13T12:37:16,Clothes,Tshirts
X01,2014-02-13T12:38:33,Shoes,Running
X02,2014-02-13T12:39:23,Shoes,Running
X02,2014-02-13T12:40:42,Books,Fiction
X02,2014-02-13T12:41:04,Books,Fiction

我想做的是像这样及时保留每个数据点的一个实例(我不关心哪个实例及时):

ID,DateTime,Category,SubCategory
X01,2014-02-13T12:36:14,Clothes,Tshirts
X02,2014-02-13T12:39:23,Shoes,Running
X02,2014-02-13T12:40:42,Books,Fiction

不幸的是,根据Hive Language Manual , Hive 的 DISTINCT 表达式适用于整个表,所以做这样的事情不是一个选项:

SELECT DISTINCT(ID, SubCategory),
DateTime,
Category
FROM sometable

如何获取上面的第二个表格?提前致谢!

最佳答案

SQL 中这种事情的常用方法是分组依据:

select ID, category, subcategory, min(datetime) datetime
from sometable
group by ID, category, subcategory

关于hadoop - 根据列的子集过滤掉重复的行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30494620/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com