php - 获取要删除的 Mysql 重复行的 ID

转载作者：行者123 更新时间：2023-12-05 04:27:17

24

4

我正在尝试编写一个 Laravel Eloquent 声明来执行以下操作。

查询一个表并获取所有重复行的所有 ID(或者理想情况下是除重复的第一个实例的 ID 之外的所有 ID)。

现在我有以下 mysql 语句:

select `codes`, count(`codes`) as `occurrences`, `customer_id` from `pizzas` 
group by `codes`, `customer_id` 
having `occurrences` > 1;

重复项是共享 codes 和 customer_id 组合的任何行，示例:

codes,customer_id
183665A4,3
183665A4,3
183665A4,3
183665A4,3
183665A4,3

我正在尝试删除其中 1 个以外的所有内容。

这将返回一组代码，包括它们的出现和它们的 customer_id，因为我只想要同时具有这两者的行。

目前我想通过这个循环，并保存第一个实例的 ID，然后再次调用它并删除任何没有该 ID 的实例。这似乎不是很快，因为大约有 5000 万行，所以每个查询都需要很长时间，而且我们有多个查询要删除每个重复项。

// get every order that shares the same code and customer ID
$orders = Order::select('id', 'codes', DB::raw('count(`codes`) as `occurrences`'), 'customer_id')
            ->groupBy('codes')
            ->groupBy('customer_id')
            ->having('occurrences', '>', 1)
            ->limit(100)
            ->get();

        // loop through those orders
        foreach ($orders as $order)
        {
            // find the first order that matches this duplicate set
            $first_order = Order::where('codes', $order->codes)
                                ->where('customer_id', $order->customer_id)
                                ->first();
            
            // delete all but the first        
            Order::where('codes', $order->codes)
                ->where('customer_id', $order->customer_id)
                ->where('id', '!=', $first_order->id)
                ->delete();
        }

必须有一种更有效的方法来追踪共享相同代码和 customer_id 的所有行，并删除所有重复项但保留第一个实例，对吗？哈哈

我在想，如果我可以在结果中添加一个伪造的列，它是每个 ID 的数组，那么我至少可以删除第一个 ID 并删除其他 ID。

最佳答案

不涉及PHP

This seems not very fast

问题中的逻辑本质上很慢，因为它有很多查询，并且每个查询都有:

DB<->PHP 网络往返
PHP ORM 逻辑/开销

鉴于问题中的数字，整个代码需要调用多达 10k 次(如果这 200 万条重复记录中的每条记录恰好出现 2 次)，为了论证起见，假设总共有 1k 组重复项那是:

1,000 个查询发现重复项
100,000 个查询找到第一条记录
100,000 个删除查询

201,000 个查询很多并且 php 开销使其速度慢了一个数量级(根据经验猜测)。

直接在数据库上做

只需消除 php/orm/network(即使它们在同一台机器上)时间就会使过程显着加快，这将涉及编写一个过程来模拟问题中的 php 逻辑。

不过还有更简单的方法，具体看情况。在评论中你说:

该表的大小为 140GB
它包含 5000 万行
大约 200 万条是重复记录
没有足够的可用空间来制作表格的副本

从表面上看这些评论，我建议的过程是:

确保你有一个功能性的数据库备份

在做任何事情之前，请确保您有一个功能性的数据库备份。如果你设法犯了一个错误，例如删除表 - 确保您可以在不丢失数据的情况下恢复。

无论如何，您将首先在数据库副本上测试此过程，对吧:)？

创建一个“ids to keep”表并填充它

这是 removing duplicate with a unique index 的排列:

CREATE TABLE ids_to_keep (
    id INT PRIMARY KEY,
    codes VARCHAR(50) NOT NULL, # use same schema as source table
    customer_id INT NOT NULL, # use same schema as source table
    UNIQUE KEY derp (codes,customer_id)
);

INSERT IGNORE INTO ids_to_keep 
    SELECT id, codes, customer_id from pizzas;

Mysql 将静静地删除与唯一索引冲突的行，从而生成一个表，每个代码一个 id + customer_id 元组。

如果您没有空间放这张 table - 腾出空间 :)。它不应该太大； 140GB 和 50M 行意味着每行大约 3kb - 这个临时表可能需要原始大小的个位数百分比。

删除重复记录

在执行任何预期会变慢的查询之前，使用 EXPLAIN 检查查询是否会在合理的时间内完成。

作为单个查询运行:

DELETE FROM 
  pizzas 
WHERE 
  id NOT IN (SELECT id from ids_to_keep);

如果你想分块做事:

DELETE FROM 
  pizzas 
WHERE 
  id BETWEEN (0,10000) AND
  id NOT IN (SELECT id from ids_to_keep);

清理

一旦不再需要该表，就将其删除:

DROP TABLE ids_to_keep;

确保不再发生这种情况

为了防止这种情况再次发生，给表添加一个唯一索引:

CREATE UNIQUE INDEX ON pizzas(codes, customer_id);

关于php - 获取要删除的 Mysql 重复行的 ID，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/72874206/

24

4

0

文章推荐： swift - 登录屏幕 SwiftUI

文章推荐： jsf - 无法更新

文章推荐： javascript - 使用图表js创建两个内联图表

python - 为什么 id(id) 和 id(id(id)) 总是返回相同的值，而 id(id(id(id))) "loops"超过 3 个值？
出现在 python 2.7.8 中。 3.4.1 不会发生这种情况。示例: >>> id(id) 140117478913736 >>> id(id) 140117478913736 >>> id
javascript - ID、唯一 ID、客户端 ID、唯一客户端 ID、静态客户端 ID？
好吧，我对动态创建的控件的 ID 很困惑。 Public Class TestClass Inherits Panel Implements INamingContainer
java - Stackoverflow 和 Hibernate 使用 sql IN (id, id, id, id..id)
我收到下面的错误，说有堆栈溢出。发生这种情况是因为带有 IN (id, id, id...id) 的 SQL 语句有大量参数。有没有什么办法解决这一问题？这是在我使用 Eclipse 的本地环境中发生
python - 为什么 CPython 中 id({}) == id({}) 和 id([]) == id([]) ？
为什么 CPython(不知道其他 Python 实现)有以下行为？ tuple1 = () tuple2 = ()
python - 为什么 CPython 中的 id({}) == id({}) 和 id([]) == id([])？
为什么 CPython(对其他 Python 实现一无所知)有以下行为？ tuple1 = () tuple2 = ()
.net - 属性 'ID' : ID or Id? 的正确命名约定是什么
非常简单的问题:当我有一个持久对象时，它通常有一个名为 ID 的属性(对于抽象类)。那么..命名约定是ID还是Id？例如。 public int ID { get; set; } 或 public
java - ID 必须存在于容器中或作为生成的列，缺少 id : id
知道为什么我会收到此错误，我已经尝试了所有命名约定(小写/大写) 我正在使用 Vaadin，这是我的代码片段: public class Usercontainer extends BeanI
python - 为什么 id({}) == id({}) 和 id([]) == id([]) 在 CPython 中？
为什么 CPython(不知道其他 Python 实现)有以下行为？ tuple1 = () tuple2 = ()
sql - shift id's of table alike (id = id + 1) 其中 id 是主键
我需要改变表的所有主键 UPDATE TODO SET id = id + 1 但我做不到(Demo 来自 Ahmad Al-Mutawa 的回答)描述了原因。主键不能这样改。我也不能根据这是 sq
mysql - JOIN ids 以 0 作为父 id，查询具有不同父 id 的 id
我正在尝试列出与用户相关的讨论列表。想象一下，如果你愿意的话: posts -------------------------------------------------------------
php - Mysql group_concat(id) 作为左连接中的 ids 并使用 ids 选择 id 组中的所有列
我有一个表，其中包含一些具有自己的 ID 和共享 SKU key 的文章。我尝试使用左连接进行查询，并使用组结果获取从查询返回的所有 id。我的数据结构是这样的: id - name -
mysql - 为什么 `if(id=max(id), id, id+1)` 在 mysql 中没有按预期工作
在下表People中: id name 1 James 2 Yun 3 Ethan 如果我想找到最大 ID，我可以运行此查询 select max(id) id from People; 结果是
javascript - 如何通过单击子 ID 找到父 ID，然后通过 jquery 获取父 ID 来查找子 ID
我正在产品页面上创建评论模块，其中显示垃圾评论选项，并显示 onclick 显示和隐藏弹出窗口。现在它在单个评论中工作正常但是当评论是两个时它同时打开两个因为类是相同的。现在这就是为什么我想要获取父
c# - 如果实体没有 ID，是否可以让 NHibernate 自动生成 ID，或者如果实体已经有 ID，是否可以使用实体的 ID？
根据 REST 哲学，PUT操作应该(取自维基百科): PUT http://example.com/resources/142 Update the address member of the co
javascript - 如何以编程方式获取属性 ID、 View ID 和帐户 ID？
我想知道如何在使用 PHP 或 JavaScript 进行身份验证后从 Google Analytics 获取 Property Id、View Id 和 Account Id？因为我希望能够将它们存
javascript - 我想使用所选按钮的 id，但如何从中获取 id？ this.id 不起作用
我想使用所选按钮的 ID 进行删除。但我不知道如何从中获取/获取 id。我尝试了 this.id 但不起作用。这是我创建按钮的地方: var deleteEmployer= document.cre
php - 通过给定的 ID 获取所有相关的父 ID 和子 ID
我有一个具有以下结构的表“表” ID LinkedWith 12 13 13 12 14 13 15 14 16
sql - 您如何找到一条链的原始 ID、第一个 ID 和最后一个 ID？
请不要在未阅读问题的情况下将问题标记为重复。我确实发布了一个类似的问题，但 STACKOVERFLOW 社区成员要求我单独重新发布修改后的问题，因为考虑到一个小而微妙的修改，解决方案要复杂得多。假设
Java 类构造函数 this.id = id 或 this.setId(id)
在 Android Studio 中，我创建了一个 Person.java 类。我使用Generate 创建了getter 和setter 以及构造函数。这是我的 Person.java 类: pu
jquery - 显示#id - 当悬停另一个#id 时隐藏#id
如何在 jQuery 中制作这样的东西: //这是显示的主体 ID //当我悬停 #hover-id 时，我希望 #principal-id 消失并更改。但是当我将光标放在 #this-id 上时

首页

博学

6Ren·AI

商城