mysql - 检索每组中的最后一条记录

mysql - 检索每组中的最后一条记录 - MySQL

转载作者：行者123 更新时间：2023-11-29 15:52:32

25

4

有一个表messages，其中包含如下所示的数据:

Id   Name   Other_Columns
-------------------------
1    A       A_data_1
2    A       A_data_2
3    A       A_data_3
4    B       B_data_1
5    B       B_data_2
6    C       C_data_1

如果我运行查询select * from messages group by name，我将得到的结果为:

1    A       A_data_1
4    B       B_data_1
6    C       C_data_1

什么查询将返回以下结果？

3    A       A_data_3
5    B       B_data_2
6    C       C_data_1

也就是说，应该返回每组中的最后一条记录。

目前，这是我使用的查询:

SELECT
  *
FROM (SELECT
  *
FROM messages
ORDER BY id DESC) AS x
GROUP BY name

但这看起来效率很低。还有其他方法可以达到相同的结果吗？

最佳答案

MySQL 8.0 现在支持windowing functions ，就像几乎所有流行的 SQL 实现一样。使用这个标准语法，我们可以编写每组最大n个查询:

WITH ranked_messages AS (
  SELECT m.*, ROW_NUMBER() OVER (PARTITION BY name ORDER BY id DESC) AS rn
  FROM messages AS m
)
SELECT * FROM ranked_messages WHERE rn = 1;

此方法和其他查找方法 groupwise maximal rows MySQL手册中有说明。

以下是我在2009年针对这个问题写的原始答案:

<小时/>

我这样写解决方案:

SELECT m1.*
FROM messages m1 LEFT JOIN messages m2
 ON (m1.name = m2.name AND m1.id < m2.id)
WHERE m2.id IS NULL;

关于性能，一种解决方案可能会更好，具体取决于数据的性质。因此，您应该测试这两个查询，并根据您的数据库使用性能更好的查询。

例如，我有一份 StackOverflow August data dump 的副本。我将用它来进行基准测试。 Posts 表中有 1,114,357 行。这是在 MySQL 上运行我的 Macbook Pro 2.40GHz 上为 5.0.75。

我将编写一个查询来查找给定用户 ID(我的)的最新帖子。

首次使用该技术 shown作者:@Eric，在子查询中使用 GROUP BY:

SELECT p1.postid
FROM Posts p1
INNER JOIN (SELECT pi.owneruserid, MAX(pi.postid) AS maxpostid
            FROM Posts pi GROUP BY pi.owneruserid) p2
  ON (p1.postid = p2.maxpostid)
WHERE p1.owneruserid = 20860;

1 row in set (1 min 17.89 sec)

甚至是EXPLAIN analysis需要 16 秒以上:

+----+-------------+------------+--------+----------------------------+-------------+---------+--------------+---------+-------------+
| id | select_type | table      | type   | possible_keys              | key         | key_len | ref          | rows    | Extra       |
+----+-------------+------------+--------+----------------------------+-------------+---------+--------------+---------+-------------+
|  1 | PRIMARY     | <derived2> | ALL    | NULL                       | NULL        | NULL    | NULL         |   76756 |             | 
|  1 | PRIMARY     | p1         | eq_ref | PRIMARY,PostId,OwnerUserId | PRIMARY     | 8       | p2.maxpostid |       1 | Using where | 
|  2 | DERIVED     | pi         | index  | NULL                       | OwnerUserId | 8       | NULL         | 1151268 | Using index | 
+----+-------------+------------+--------+----------------------------+-------------+---------+--------------+---------+-------------+
3 rows in set (16.09 sec)

现在使用 my technique 生成相同的查询结果与LEFT JOIN:

SELECT p1.postid
FROM Posts p1 LEFT JOIN posts p2
  ON (p1.owneruserid = p2.owneruserid AND p1.postid < p2.postid)
WHERE p2.postid IS NULL AND p1.owneruserid = 20860;

1 row in set (0.28 sec)

EXPLAIN 分析显示两个表都能够使用它们的索引:

+----+-------------+-------+------+----------------------------+-------------+---------+-------+------+--------------------------------------+
| id | select_type | table | type | possible_keys              | key         | key_len | ref   | rows | Extra                                |
+----+-------------+-------+------+----------------------------+-------------+---------+-------+------+--------------------------------------+
|  1 | SIMPLE      | p1    | ref  | OwnerUserId                | OwnerUserId | 8       | const | 1384 | Using index                          | 
|  1 | SIMPLE      | p2    | ref  | PRIMARY,PostId,OwnerUserId | OwnerUserId | 8       | const | 1384 | Using where; Using index; Not exists | 
+----+-------------+-------+------+----------------------------+-------------+---------+-------+------+--------------------------------------+
2 rows in set (0.00 sec)

<小时/>

这是我的 Posts 表的 DDL:

CREATE TABLE `posts` (
  `PostId` bigint(20) unsigned NOT NULL auto_increment,
  `PostTypeId` bigint(20) unsigned NOT NULL,
  `AcceptedAnswerId` bigint(20) unsigned default NULL,
  `ParentId` bigint(20) unsigned default NULL,
  `CreationDate` datetime NOT NULL,
  `Score` int(11) NOT NULL default '0',
  `ViewCount` int(11) NOT NULL default '0',
  `Body` text NOT NULL,
  `OwnerUserId` bigint(20) unsigned NOT NULL,
  `OwnerDisplayName` varchar(40) default NULL,
  `LastEditorUserId` bigint(20) unsigned default NULL,
  `LastEditDate` datetime default NULL,
  `LastActivityDate` datetime default NULL,
  `Title` varchar(250) NOT NULL default '',
  `Tags` varchar(150) NOT NULL default '',
  `AnswerCount` int(11) NOT NULL default '0',
  `CommentCount` int(11) NOT NULL default '0',
  `FavoriteCount` int(11) NOT NULL default '0',
  `ClosedDate` datetime default NULL,
  PRIMARY KEY  (`PostId`),
  UNIQUE KEY `PostId` (`PostId`),
  KEY `PostTypeId` (`PostTypeId`),
  KEY `AcceptedAnswerId` (`AcceptedAnswerId`),
  KEY `OwnerUserId` (`OwnerUserId`),
  KEY `LastEditorUserId` (`LastEditorUserId`),
  KEY `ParentId` (`ParentId`),
  CONSTRAINT `posts_ibfk_1` FOREIGN KEY (`PostTypeId`) REFERENCES `posttypes` (`PostTypeId`)
) ENGINE=InnoDB;

<小时/>

评论者请注意:如果您想要使用不同版本的 MySQL、不同的数据集或不同的表设计进行另一个基准测试，请随意自己做。我已经展示了上面的技术。 Stack Overflow 在这里向您展示如何进行软件开发工作，而不是为您完成所有工作。

关于mysql - 检索每组中的最后一条记录 - MySQL，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56698027/

25

4

0

文章推荐： mysql - 将相似的 URL 分组

文章推荐： mysql - 当数据库更改时，socket.io 中的值不会更新

文章推荐： MySQL 使用 CASE AND Group By 进行选择

ios - 从 url 检索 jpg 图像返回 nil。但是，从 url 检索 png 图像工作正常
如果我使用下面的代码，数据将为零 dispatch_async(dispatch_get_global_queue(0,0), ^{ UIImage *img = [[UIImage allo
检索 fread 使用的列分隔符
fread来自 data.table包一般可以在读取文件时自动确定列分隔符( sep )。例如，这里fread自动检测 |作为列分隔符: library(data.table) fread(past
检索 R 中特定单元格的行名和列名
因此，如果我有一个如下所示的数据框: A B C rowname1 4.5 4 3.2 rowname2 3 23
elasticsearch - 使用Solr或Elasticsearch通过大型OR查询子句进行搜索/检索
我有一个汽车模型的搜索数据库:“日产Gtr”，“Huynday Elantra”，“Honda Accord”等。现在我还有一个用户列表和他们喜欢的汽车类型 user1喜欢:carId:1234，c
java - 检索 "To"中的邮件ID并与javamail中的用户输入进行比较
我正在使用 Javamail 来获取一些电子邮件数据。我将用户输入作为电子邮件 ID、imap 地址和密码并连接到 imap。然后我监视收件箱的电子邮件并查明此人是否在“收件人”或“抄送”中。 Ema
检索 R 中的最佳簇数
我有一些数据，我想根据差距统计来评估最佳簇数。我阅读了 gap statistic 上的页面在 r 中给出了以下示例: gs.pam.RU Number of clusters (method '
JAVA - 检索/存储用户名和密码到服务器的安全方法？
我有一个用户名和密码组合，我将使用它通过 java 代码访问安全服务器。我的想法是: 在外部存储加密凭据执行时提示用户输入解密密码在使用前将解密的凭据直接存储在字符数组中使用凭据连接到数据库
java - Firebase 检索
这是 Firebase 数据:[Firebase 数据][1] 我必须从员工那里检索所有字段并将其存储在一个数组中。现在数据更改 toast 消息即将到来，但已经很晚了。 Firebase.setA
iOS 检索 valueForKey？
我是 iOS 的新手，正在开发一个基本的应用程序，它目前正在使用 SSKeychain 和 AFNetworking 与 API 进行交互。当您使用我检索的应用程序登录并在我的 CredentialS
python - 检索/打印执行上下文
编辑:这个问题已经在 apphacker 和 ConcernedOfTunbridgeWells 的帮助下得到解决。我已更新代码以反射(reflect)我将使用的解决方案。我目前正在编写一个群体智能
c - 检索/比较文件中的字符串与用户文本
我是 C 的新手，我想编写一个程序来检查用户输入的单词是否合法。我已经在 stackoverflow 上搜索了建议，但很多都是针对特定情况的。请在我被激怒之前，我知道这个语法不正确，但正在寻找一些关于
c# - 检索/设置密码和其他敏感数据的安全程序
我相信你们中的一些人编写过 C# 类，这些类必须从数据库设置密码/从数据库获取密码。我假设敏感细节不会以明文形式显示。处理此类数据的推荐程序是什么？检索到的文本是否加密？您是否将 pws 存储在加密
Python 检索 RUID？
我在 linux 上使用 2.7 之前的 python 版本，想知道如何检索 RUID？ 2.7 及更高版本从 os 包中获得了 getresuid，但我似乎找不到 2.6 的等效项最佳答案您可以
Android LRUCache 检索
我已经在 Android 中实现了一个存储对象的标准 LRUCache。每个键都是与存储的对象关联的唯一 ObjectId。我的问题是从缓存中检索对象的唯一方法是通过 ObjectId(无迭代器)。实
c# - 检索 *** 的包元数据时出错
这已经被问过很多次了。解决方案(对我有用)是从 packages.config 文件(这就足够了)和 packages 文件夹中删除 *** 包。这对我来说是一个糟糕的解决方案，因为每次我想安装一些
python - 检索 #{ } 中的文本
我有以下文字: #{king} for a ##{day}, ##{fool} for a #{lifetime} 以及以下(损坏的)正则表达式: [^#]#{[a-z]+} 我想匹配所有#{word
.net - 检索/存储数百万个小型二进制对象的最快方法
我正在寻找一种快速(如高性能，而不是快速修复)解决方案来持久化和检索数千万个小型(大约 1k)二进制对象。每个对象都应该有一个用于检索的唯一 ID(最好是 GUID 或 SHA)。额外的要求是它应该可
chisel - 检索 RegInit 的重置值
有没有办法获取 RegInit 的重置值？通过探测产生的类型的成员？我可以看到 RegInit 将返回类型(例如 UInt )。例如，我将有一个寄存器，我想通过 regmap 对其进行控制。 val
Laravel:检索 JSON 数组中的值计数
Iv 目前接手了一个项目，其中开发人员在某些表的 json 数组列中存储了 has many 关系。产品表 ---------------------------- id | product | c
git - 检索 Git 推送历史？
Git 会在任何地方记录推送到远程的历史吗？我注意到我们能够在 Microsoft VSTS 中查看 Git 存储库的推送历史记录以及每次推送的相关提交。它甚至显示旧的、过时的提交，由于后来的强制推

首页

博学

6Ren·AI

商城

mysql - 检索每组中的最后一条记录 - MySQL