gpt4 book ai didi

distinct - 从 BigQuery 表中删除重复行

转载 作者:行者123 更新时间:2023-12-03 08:52:05 28 4
gpt4 key购买 nike

我有一个包含 > 1M 行数据和 20 多列的表。

在我的表 (tableX) 中,我在一个特定的列 (troubleColumn) 中发现了重复的记录 (~80k)。

如果可能,我想保留原始表名并从有问题的列中删除重复记录,否则我可以创建一个具有相同架构但没有重复项的新表 (tableXfinal)。

我不精通 SQL 或任何其他编程语言,所以请原谅我的无知。

delete from Accidents.CleanedFilledCombined 
where Fixed_Accident_Index
in(select Fixed_Accident_Index from Accidents.CleanedFilledCombined
group by Fixed_Accident_Index
having count(Fixed_Accident_Index) >1);

最佳答案

您可以通过运行重写您的表的查询来删除重复项(您可以使用与目标相同的表,或者您可以创建一个新表,验证它是否包含您想要的内容,然后将其复制到旧表上)。

一个应该有效的查询在这里:

SELECT *
FROM (
SELECT
*,
ROW_NUMBER()
OVER (PARTITION BY Fixed_Accident_Index)
row_number
FROM Accidents.CleanedFilledCombined
)
WHERE row_number = 1

关于distinct - 从 BigQuery 表中删除重复行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36675521/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com