gpt4 book ai didi

hadoop - Hive - 删除重复项,保留最新记录 - 所有这些

转载 作者:可可西里 更新时间:2023-11-01 14:48:40 24 4
gpt4 key购买 nike

<分区>

有几个这样的问题,没有答案,像这个here.

我想我会再发一个,希望能得到一个。

我有一个包含重复行的配置单元表。考虑以下示例:

*ID             Date           value1         value2*
1001 20160101 alpha beta
1001 20160201 delta gamma
1001 20160115 rho omega
1002 20160101 able charlie
1002 20160101 able charlie

完成后,我只想要两条记录。具体来说,这两个:

*ID             Date           value1         value2*
1001 20160201 delta gamma
1002 20160101 able charlie

为什么是这两个?对于 ID=1001,我想要最新日期和该行中的数据。对于 ID=1002,确实是相同的答案,但是具有该 ID 的两条记录完全重复,我只想要一条。

那么,关于如何做到这一点有什么建议吗?使用 ID 和“最大”日期的简单“分组依据”将不起作用,因为它会忽略其他列。我不能在这些上加上“最大”,因为它会从所有记录中提取最大列(将从旧记录中提取“rho”),这不好。

我希望我的解释是清楚的,我感谢任何见解。

谢谢

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com