sql - 在表中查找重复项-6ren

sql - 在表中查找重复项

转载作者：塔克拉玛干更新时间：2023-11-03 06:15:57

25

4

我有一个包含重复项的表。识别重复项的方法是 - key 应该在同一组(1、2、3 或 4) - p 应该相同 - P 是一个 id，表示这个键是相同的一个键只能在同一组中匹配多次。

假设我们有下面这个示例:

key,p,group
1,1,1
33,1,1
5,1,1
5,2,1
4,2,1
4,15,1
8,4,1
10,5,1
15,6,1
21,15,1
78,7,1
79,8,2
80,8,2
81,9,3
82,9,3
85,10,4
90,11,1
91,11,1
73,12,1

输出应该是:

key,p,group
1,999,1
5,999,1
4,999,1
21,999,1
33,999,1
8,4,1
10,5,1
15,6,1
78,7,1
79,111,2
80,111,2
81,666,3
82,666,3
85,10,4
90,222,1
91,222,1
73,12,1

1,5,4,21 和 33 具有相同的 p 值(999，这个数字只是一个新的 id，用于将重复项分组在一起)，因为他们在同一组 (group=1) 并且 1,5 和 33 匹配 (p=1) , 5 和 4 匹配 (p=2) , 4 和 21 匹配 (p=15)

对于 90,91，即使它们在组 1 中，它们也只匹配在一起，因为它们不与该组中的另一个键链接(交叉)。

79和80在同一组(group=2)

8 保持p = 4 因为他不匹配组中的其他key = 1。

等等...我正在寻找一种在 SQL(Oracle) 或算法中执行此操作的方法...

其实，它不工作。如果你在输入中有这个:

key,p,group
55,9,6
56,10,6
56,11,6
58,9,6
58,11,6

输出将是

key,p,group
55,9,6
56,9,6
58,9,6
56,10,6
58,10,6

或者我需要:

key,p,group
55,9,6
56,9,6
58,9,6
56,9,6
58,9,6

感谢帮助

最佳答案

如果我正确理解了问题:将行视为(无向)图的节点，如果节点具有相同的 p 和组值或相同的键和组值，则边连接节点。然后找到这个图的连通分量，改变p值，使一个连通分量中的所有节点都具有相同的p值。

如果是这样，这可以通过分层查询来完成(加上它前后所需的所有处理；主要部分是分层查询)。在下面的解决方案中，我将连通分量中的所有 p 值更改为组中 p 值的最小值(而不是随机值)；如果需要“随机值”也可以做到，但这是一个不同的问题，有一个更简单的解决方案(一开始可能不需要)。

GROUP 不是一个好的列名，因为它是 Oracle 中的保留字。我将其更改为 GRP。

with
-- begin test data (this is not part of the solution)
     inputs ( key, p, grp ) as (
       select  1,  1, 1 from dual union all
       select 33,  1, 1 from dual union all
       select  5,  1, 1 from dual union all
       select  5,  2, 1 from dual union all
       select  4,  2, 1 from dual union all
       select  4, 15, 1 from dual union all
       select  8,  4, 1 from dual union all
       select 10,  5, 1 from dual union all
       select 15,  6, 1 from dual union all
       select 21, 15, 1 from dual union all
       select 78,  7, 1 from dual union all
       select 79,  8, 2 from dual union all
       select 80,  8, 2 from dual union all
       select 81,  9, 3 from dual union all
       select 82,  9, 3 from dual union all
       select 85, 10, 4 from dual union all
       select 90, 11, 1 from dual union all
       select 91, 11, 1 from dual union all
       select 73, 12, 1 from dual union all
       select 55,  9, 6 from dual union all
       select 56, 10, 6 from dual union all
       select 56, 11, 6 from dual union all
       select 58,  9, 6 from dual union all
       select 58, 11, 6 from dual
     ),
-- end of test data; solution (SQL query) continues below this line
     prep ( grp, parent, child ) as (
       select distinct a.grp, a.p, b.p
       from   inputs a inner join inputs b
                       on a.grp = b.grp and a.key = b.key
     ),
     h ( grp, rt, child ) as (
       select grp, connect_by_root parent, child
       from   prep
       connect by nocycle grp = prior grp and parent = prior child
     )
select distinct i.key, g.new_p as p, i.grp
from   inputs i join (
                       select grp, rt, min(child) as new_p
                       from   h
                       group by grp, rt
                     ) g
                 on g.grp = i.grp and g.rt = i.p
order by grp, p, key   --   optional
;

输出:

       KEY          P        GRP
---------- ---------- ----------
         1          1          1
         4          1          1
         5          1          1
        21          1          1
        33          1          1
         8          4          1
        10          5          1
        15          6          1
        78          7          1
        90         11          1
        91         11          1
        73         12          1
        79          8          2
        80          8          2
        81          9          3
        82          9          3
        85         10          4
        55          9          6
        56          9          6
        58          9          6

20 rows selected.

关于sql - 在表中查找重复项，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41035810/

25

4

0

文章推荐： c++ - 当其中一个线程较早结束时终止所有线程 C++

文章推荐： javascript - 如何将对象中的股票数据解析为数组

文章推荐： javascript - 这个就地数组反转的时间复杂度是多少？

java - 无法从其他 EJB2 查找 EJB2，但可以从 servlet 查找
我在 GlassFish (J2EE_1.4) 上的 NetBeans 中开发企业项目。我的项目中有一些实体 bean、一些 session bean 和消息驱动 bean。我以如下方式使用 serv
mysql - 查找 ('first' )、查找 ('count' ) 或字段 ('id' )...哪个更快？
什么在速度方面更好...... 我正在尝试确定用户是否已将某个 URL 添加到他们的快捷方式列表中。如果他们添加了 URL，页面上就会有一个链接，用于从快捷方式中删除该页面，否则他们可以将其添加到快捷
c++ - 使用Excel模板内的OleFunction“查找”查找 header 变量，然后从C++替换它们
我的问题如下：我打开一个Excel-File，但我不知道我的客户在模板文件中使用了哪些可能的标头变量。它们可以是：＃DATE，＃TIME，＃NAME等。因此，我需要查找这些变量，以及是否已使用过：替
bash - osx 查找 exec rm 查找 : exec: unknown primary or operator
我有一堆以“-e”结尾的文件要删除。 $ find . -name "*-e" exec rm {} \; find: exec: unknown primary or operator 正则表达式是
TypeScript 查找/条件类型和联合
我有一个简单的问题:是否可以在 TypeScript 中获取联合的一部分的类型？例如，您可以经常使用如下查找类型: interface Person { name: string; } type
cuda - 查找 CUDA_SDK_ROOT_DIR
我正在尝试设置 Point Cloud Library启用 CUDA 选项的主干构建。我相信我已经按照 these instructions 正确安装了 CUDA . 在 PCL 构建的 cmake
excel - 查找/替换仅限于一列但许多工作表
我将首先说我所知道的唯一 VBA 是操作录制的宏的反复试验。我是一名注册会计师，试图以艰难的方式学习 VBA(并希望我去学校学习计算机编程!)。我有带有多个工作表的大型工作簿。 G 列中以黄色突出显
python - 查找/删除目录中最旧的文件
当文件数达到阈值时，我试图删除目录中最旧的文件。 list_of_files = os.listdir('log') if len([name for name in list_of_files
arrays - 查找、计数和索引数组中的重复项
我有一个数组，它有一些重复的值。我必须计算每个重复项的数量及其索引。打印如: Index of b: 1 Index of b: 4 Index of c: 2 Index of c: 3 Ind
Eclipse 查找/替换不起作用
我已经搜索了我的问题的解决方案，但没有成功。热键 ctrl+F 找到的 eclipse 查找/替换功能不起作用。注意:通过 Eclipse 菜单 Edit>Find Replace(不工作我的意思是
Jquery 查找 - 仅可见
我想检查 div 是否包含类为“error”的子级，但条件是错误类显示不等于无。 (意味着错误类必须可见。如何更改我的以下代码: $(".related_field").each(function
Jquery - 查找 $(this) 是什么元素
这个问题已经有答案了: 已关闭13 年前。 Possible Duplicate: Can jQuery provide the tag name? 嗨! 这个问题太基础了，我不好意思问，但我尝试了
cygwin - 查找:参数格式不正确
我一直听说这是 cygwin 的路径问题。它阻止了 emacs 在我的 cygwin 中工作。当我在 cli(不是 bash/cygwin)上执行 find 时，无论我输入什么，我都会得到同样的错误。
javascript - 查找:变量值不匹配
我正在使用此变量来获取一个或多个与我需要的值相匹配的值。 var mail = $("#dat").contents().find("td:contains('" + name + "')" ).si
javascript - 查找/合并具有共同属性的两个对象
请原谅这个长问题。我只是不确定解决这个问题的最佳方法是什么。我有一个电子表格(Google 表格)，其中包含用户和地址列表，我需要从中创建邮寄标签。该电子表格是从我们的学生信息系统导出的。这些地址应
vba - 使用范围对象中的行属性进行匹配/查找
我正在 Excel VBA 中创建一个公式，以解析单元格中以逗号分隔的“部分”列表。在另一个工作表中查找具有该零件名称的单元格，然后使用找到的该单元格的地址来获取同一行不同列的零件成本。我为此工作了数
电子邮件验证 MX 查找
我被要求在网络应用程序上实现一些电子邮件地址验证 - 我确信我们都已经经历过一千次了...但是，这一次我被要求在域上进行 MX 查找查看它是否接受电子邮件。有人知道这样做有任何潜在的问题吗？ mx
matlab - 查找.wave文件的末尾以更改MATLAB中的按钮String
我有一个切换按钮，可读取.wave文件，并且字符串更改为暂停，然后..... 我的问题是，当用户播放声音时，按钮字符串更改为暂停，结束声音后，该字符串仍为暂停状态，我想将其更改为播放。但是我不知道如何
regex - 查找/替换功能允许边界替换而不是表达式
对于令人困惑的标题提前表示歉意。我的问题如下，我在大约 600 个文件中有以下文本: $_REQUEST['FOO'] 我想将其替换为以下内容: $this->input->post('FOO') 为
Ansible INI 查找
我正在使用 Ansible 的查找功能查找 INI 文件中的值。这是文档中的示例: - debug: msg="User in integration is {{ lookup('ini', 'use

首页

博学

6Ren·AI

商城

sql - 在表中查找重复项