MySQL事务死锁问题排查

转载作者：我是一只小鸟更新时间：2023-09-26 23:02:28

35

4

1、背景

在预发环境中，由消息驱动最终触发执行事务来写库存，但是导致MySQL发生死锁，写库存失败.

                        
                          com.mysql.jdbc.exceptions.jdbc4.MySQLTransactionRollbackException: rpc error: code = Aborted desc = Deadlock found when trying to get lock; try restarting transaction (errno 1213) (sqlstate 40001) (CallerID: ): Sql: "/* uag::omni_stock_rw;xx.xx.xx.xx:xxxxx;xx.xx.xx.xx:xxxxx;xx.xx.xx.xx:xxxxx;enable */  insert into stock_info(tenant_id, sku_id, store_id, available_num, actual_good_num, order_num, created, modified, SAVE_VERSION, stock_id) values (:vtg1, :vtg2, :_store_id0, :vtg4, :vtg5, :vtg6, now(), now(), :vtg7, :__seq0) /* vtgate:: keyspace_id:e267ed155be60efe */", BindVars: {__seq0: "type:INT64 value:"29332459" "_store_id0: "type:INT64 value:"50650235" "vtg1: "type:INT64 value:"71" "vtg2: "type:INT64 value:"113817631" "vtg3: "type:INT64 value:"50650235" "vtg4: "type:FLOAT64 value:"1000.000" "vtg5: "type:FLOAT64 value:"1000.000" "vtg6: "type:INT64 value:"0" "vtg7: "type:INT64 value:"20937611645" "}

初步排查，在同一时刻有两条请求进行写库存的操作.

时间前后相差1s，但最终执行结果是，这两个事务相互死锁，均失败.

事务定义非常简单，伪代码描述如下:

                        
                          start transaction
// 1、查询数据
data = select for update(tenantId, storeId, skuId);
if (data == null) {
    // 插入数据
    insert(tenantId, storeId, skuId);
} else {
    // 更新数据
    update(tenantId, storeId, skuId);
}
end transaction

该数据库表的索引结构如下:

索引类型	索引组成列
PRIMARY KEY	( `stock_id` )
UNIQUE KEY	( `sku_id` , `store_id` )

所使用的数据库引擎为Innodb，隔离级别为RR[Repeatable Read]可重复读.

2、分析思路

首先了解下Innodb引擎中有关于锁的内容。

2.1 Innodb中的锁

2.1.1 行级锁

在Innodb引擎中，行级锁的实现方式有以下三种:

名称	描述
Record Lock	锁定单行记录，在隔离级别RC和RR下均支持。
Gap Lock	间隙锁，锁定索引记录间隙（不包含查询的记录），锁定区间为左开右开，仅在RR隔离级别下支持。
Next-Key Lock	临键锁，锁定查询记录所在行，同时锁定前面的区间，故区间为左开右闭，仅在RR隔离级别下支持。

同时，在Innodb中实现了标准的行锁，按照锁定类型又可分为两类:

名称	符号	描述
共享锁	S	允许事务读一行数据，阻止其他事务获得相同的数据集的排他锁。
排他锁	X	允许事务删除或更新一行数据，阻止其他事务获得相同数据集的共享锁和排他锁。

简言之，当某个事物获取了共享锁后，其他事物只能获取共享锁，若想获取排他锁，必须要等待共享锁释放；若某个事物获取了排他锁，则其余事物无论获取共享锁还是排他锁，都需要等待排他锁释放。如下表所示:

将获取的锁（下）\已获取的锁（右）	共享锁S	排他锁X
共享锁S	兼容	不兼容
排他锁X	不兼容	不兼容

2.1.2 RR隔离级别下加锁示例

假如现在有这样一张表user，下面将针对不同的查询请求逐一分析加锁情况。user表定义如下:

                        
                          CREATE TABLE `user` (
  `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键ID',
  `user_id` bigint(20) DEFAULT NULL COMMENT '用户id',
  `mobile_num` bigint(20) NOT NULL COMMENT '手机号',
  PRIMARY KEY (`id`),
  UNIQUE KEY `IDX_USER_ID` (`user_id`),
  KEY `IDX_MOBILE_NUM` (`mobile_num`)  
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户信息表'

其中主键id与user_id为唯一索引，user_name为普通索引.

假设该表中现有数据如下所示:

id	user_id	mobile_num
1	1	3
5	5	6
8	8	7
9	9	9

下面将使用select ... for update 语句进行查询，分别针对唯一索引、普通索引来进行举例.

1、唯一索引等值查询

                        
                          select * from user
where id = 5 for update

                        
                          select * from user
where user_id = 5 for update

在这两条SQL中，Innodb执行查询过程时，会如何加锁呢?

我们都知道Innodb默认的索引数据结构为B+树，B+树的叶子结点包含指向下一个叶子结点的指针。在查询过程中，会按照B+树的搜索方式来进行查找，其底层原理类似二分查找。故在加锁过程中会按照以下两条原则进行加锁:

1.只会对满足查询目标附近的区间加锁，并不是对搜索路径中的所有区间都加锁。本例中对搜索id=5或者user_id=5时，最终可以定位到满足该搜索条件的区域(1,5].

2.加锁时，会以Next key Lock为加锁单位。那按照1满足的区域进行加Next key Lock锁（左开右闭），同时因为id=5或者user_id=5存在，所以该Next key Lock会退化为Record Lock，故只对id=5或user_id=5这个索引行加锁.

如果查询的id不存在，例如:

                        
                          select * from user
where id = 6 for update

按照上面两条原则，首先按照满足查询目标条件附近区域加锁，所以最终会找到的区间为(5,8]。因为id=6这条记录并不存在，所以Next key Lock(5, 8]最终会退化为Gap Lock，即对索引(5,8)加间隙锁.

2、唯一索引范围查询

                        
                          select * from user
where id >= 4 and id <8 for update

同理，在范围查询中，会首先匹配左值id=4，此时会对区间(1,5]加Next key Lock，因为id=4不存在，所以锁退化为 Gap Lock(1,5)；接着会往后继续查找id=8的记录，直到找到第一个不满足的区间，即Next key Lock(8, 9]，因为8不在范围内，所以锁退化为Gap Lock(8, 9)。故该范围查询最终会锁的区域为(1, 9) 。

3、非唯一索引等值查询

对非唯一索引查询时，与上述的加锁方式稍有区别。除了要对包含查询值区间内加Next key Lock之外，还要对不满足查询条件的下一个区间加Gap Lock，也就是需要加两把锁.

                        
                          select * from user
where mobile_num = 6 for update

需要对索引(3, 6]加Next key Lock，因为此时是非唯一索引，那么也就有可能有多个6存在，所以此时不会退化为Record Lock；此外还要对不满足该查询条件的下一个区间加Gap Lock，也就是对索引(6,7)加锁。故总体来看，对索引加了(3,6]Next key Lock和(6, 7) Gap Lock.

若非唯一索引不命中时，如下:

                        
                          select * from user 
where mobile_num = 8 for update

那么需要对索引(7, 9]加Next key Lock，又因为8不存在，所以锁退化为Gap Lock (7, 9) 。

4、非唯一索引范围查询

                        
                          select * from user
where mobile_num >= 6 and mobile_num < 8
for update

首先先匹配mobile_num=6，此时会对索引(3, 6]加Next Key Lock，虽然此时非唯一索引存在，但是不会退化为Record Lock；其次再看后半部分的查询mobile_num=8，需要对索引(7, 9]加Next key Lock，又因为8不存在，所以退化为Gap Lock (7, 9)。最终，需要对索引行加Next key Lock(3, 6] 和 Gap Lock(7, 9).

2.1.3 意向锁（Intention Locks）

Innodb为了支持多粒度锁定，引入了意向锁。意向锁是一种表级锁，用于表明事务将要对某张表某行数据操作而进行的锁定。同样，意向锁也分为类：共享意向锁（IS）和排他意向锁（IX）.

名称	符号	描述
共享意向锁	IS	表明事务将要对表的个别行设置共享锁
排他意向锁	IX	表明事务将要对表的个别行设置排他锁

例如select ... lock in shared mode会设置共享意向锁IS；select ... for update会设置排他意向锁IX 。

设置意向锁时需要按照以下两条原则进行设置:

1.当事务需要申请行的共享锁S 时，必须先对表申请共享意向IS锁或更强的锁。

2.当事务需要申请行的排他锁X 时，必须先对表申请排他意向IX锁。

表级锁兼容性矩阵如下表:

将获取的锁（下）/已获取的锁（右）	X	IX	S	IS
X	冲突	冲突	冲突	冲突
IX	冲突	兼容	冲突	兼容
S	冲突	冲突	兼容	兼容
IS	冲突	兼容	兼容	兼容

如果请求锁的事务与现有锁兼容，则会将锁授予该事务，但如果与现有锁冲突，则不会授予该事务。事务等待，直到冲突的现有锁被释放.

意向锁的目的就是为了说明事务正在对表的一行进行锁定，或将要对表的一行进行锁定。在意向锁概念中，除了对全表加锁会导致意向锁阻塞外，其余情况意向锁均不会阻塞任何请求！。

2.1.4 插入意向锁

插入意向锁是一种特殊的意向锁，同时也是一种特殊的“Gap Lock”，是在Insert操作之前设置的Gap Lock.

如果此时有多个事务执行insert操作，恰好需要插入的位置都在同一个Gap Lock中，但是并不是在Gap Lock的同一个位置时，此时的插入意向锁彼此之间不会阻塞.

2.2 过程分析

回到本文的问题上来，本文中有两个事务执行同样的动作，分别为先执行select ... for update获取排他锁，其次判断若为空，则执行insert动作，否则执行update动作。伪代码描述如下:

                        
                          start transaction
// 1、查询数据
data = select for update(tenantId, storeId, skuId);
if (data == null) {
    // 插入数据
    insert(tenantId, storeId, skuId);
} else {
    // 更新数据
    update(tenantId, storeId, skuId);
}
end transaction

现在对这两个事务所执行的动作进行逐一分析，如下表所示:

时间点	事务A	事务B	潜在动作
1	开始事务	开始事务
2	执行select ... for update操作		事务A申请到IX 事务A申请到X，Gap Lock
3		执行select ... for update操作	事务B申请到IX，与事务A的IX不冲突。事务B申请到Gap Lock，Gap Lock可共存。
4	执行insert操作		事务A先申请插入意向锁IX，与事务B的Gap Lock冲突，等待事务B的Gap Lock释放。
5		执行insert操作	事务B先申请插入意向锁IX，与事务A的Gap Lock冲突，等待事务A的Gap Lock释放。
6			死锁检测器检测到死锁

详细分析:

•时间点1，事务A与事务B开始执行事务。

•时间点2，事务A执行select ... for update操作，执行该操作时首先需要申请意向排他锁IX作用于表上，接着申请到了排他锁X作用于区间，因为查询的值不存在，故Next key Lock退化为Gap Lock.

•时间点3，事务B执行select ... for update操作，首先申请意向排他锁IX，根据 2.1.3节表级锁兼容矩阵可以看到，意向锁之间是相互兼容的，故申请IX成功。由于查询值不存在，故可以申请X的Gap Lock，而Gap Lock之间是可以共存的，不论是共享还是排他。这一点可以参考 Innodb关于Gap Lock的描述，关键描述本文粘贴至此:

                        
                          Gap locks can co-exist. A gap lock taken by one transaction does not prevent another transaction from taking a gap lock on the same gap. There is no difference between shared and exclusive gap locks. They do not conflict with each other, and they perform the same function.

•时间点4，事务A执行insert操作前，首先会申请插入意向锁，但此时事务B已经拥有了插入区间的排他锁，根据 2.1.3节表级锁兼容矩阵可知，在已有X锁情况下，再次申请IX锁是冲突的，需要等待事务B对X Gap Lock释放.

•时间点5，事务B执行insert操作前，也会首先申请插入意向锁，此时事务A也对插入区间拥有X Gap Lock，因此需要等待事务A对X锁进行释放.

•时间点6，事务A与事务B均在等待对方释放X锁，后被MySQL的死锁检测器检测到后，报Dead Lock错误.

思考：假如select ... for update 查询的数据存在时，会是什么样的过程呢？过程如下表:

时间点	事务A	事务B	潜在动作
1	开始事务	开始事务
2	执行select ... for update操作		事务A申请到IX 事务A申请到X行锁，因数据存在故锁退化为Record Lock。
3		执行select ... for update操作	事务B申请到IX，与事务A的IX不冲突。事务B想申请目标行的Record Lock，此时需要等待事务A释放该锁资源。
4	执行update操作		事务A先申请插入意向锁IX，此时事务B仅仅拥有IX锁资源，兼容，不冲突。然后事务A拥有X的Record Lock，故执行更新。
5	commit		事务A提交，释放IX与X锁资源。
6		执行select ... for update操作	事务B事务B此时获取到X Record Lock。
7		执行update操作	事务B拥有X Record Lock执行更新
8		commit	事务B释放IX与X锁资源

也就是当查询数据存在时，不会出现死锁问题.

3、解决方法

1、在事务开始之前，采用CAS+分布式锁来控制并发写请求。分布式锁key可以设置为store_skuId_version 。

2、事务过程可以改写为:

                        
                          start transaction
// RR级别下，读视图
data = select from table(tenantId, storeId, skuId)
if (data == null) {
    // 可能出现写并发
    insert
} else {
    data = select for update(tenantId, storeId, skuId)
    update
}
end transaction

虽然解决了插入数据不存在时会出现的死锁问题，但是可能存在并发写的问题，第一个事务获得锁会首先插入成功，第二个事务等待第一个事务提交后，插入数据，因为数据存在了所以报错回滚.

3、调整事务隔离级别为RC，在RC下没有next key lock（注意，此处并不准确，RC会有少部分情况加Next key lock），故此时仅仅会有record lock，所以事务2进行select for update时需要等待事务1提交.

参考文献。

[1] Innodb锁官方文档： https://dev.mysql.com/doc/refman/5.7/en/innodb-locking.html 。

[2] https://blog.csdn.net/qq_43684538/article/details/131450395 。

[3] https://www.jianshu.com/p/027afd6345d5 。

[4] https://www.cnblogs.com/micrari/p/8029710.html 。

若有错误，还望批评指正。

作者：京东零售刘哲。

来源：京东云开发者社区转载请注明来源。

最后此篇关于MySQL事务死锁问题排查的文章就讲到这里了,如果你想了解更多关于MySQL事务死锁问题排查的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

35

4

0

文章推荐：【23种设计模式】外观模式（十）

文章推荐： Redis系列23：性能优化指南

文章推荐： Java21正式GA，虚拟线程真的来了

文章推荐：【数据分析】针对家庭用电数据进行时序分析（1）

PostgREST 事务
我正在使用 PostgREST 将数据库实体暴露给使用这些实体的 Springboot 应用。我的数据库中有两个实体，分别是 Person 和 City。我想同时保存 Person 实体和 Cit
Redis从入门到放弃（5）：事务
1、事务的定义 Redis的事务提供了一种“将多个命令打包，然后一次性、按顺序地执行”的机制。 redis事务的主要作用就是串联多个命令防止别的命令插队。但是，事务并不具有传统
23、SQLite 事务
SQLite 事务（Transaction）事务（Transaction）是一个对数据库执行工作单元。事务（Transaction）是以逻辑顺序完成的工作单位或序列，可以是由用户手动操作完成，也可
24、MariaDB 事务
事务是顺序组操作。它们作为单个单元运行，并且直到组中的所有操作都成功执行时才终止。组中的单个故障会导致整个事务失败，并导致对数据库没有影响。事务符合ACID（原子性，一致性，隔离和耐久性）
c# - SqlKata 事务
我希望将 SqlKata 用于一个项目。但是，项目标准的一部分是查询应该能够作为事务执行。有没有一种方法可以使用 MSSQL 事务执行一个查询或多个查询？非常感谢。最佳答案 SQLKata 使用
多线程环境中的 PetaPoco 事务
我只是以多线程方式测试 PetaPoco 事务... 我有一个简单的测试用例: -- 简单的值对象称之为 MediaDevice -- 插入一条记录，更新1000次 void TransactionT
sql - VBA 事务
我正在尝试从 Excel VBA 向 SQL 中插入一些数据。 SQL 命令是在 VBA 脚本的过程中构建的，包括使用一些 SQL 变量。我试图了解事务在 VBA 中是如何工作的，以及它们是否可以处
影响大量行的 SQL 事务
情况如下: 一个大型生产客户端/服务器系统，其中一个中央数据库表具有某个列，该列的默认值是 NULL，但现在默认值是 0。但是在该更改之前创建的所有行当然仍然具有 null 值，这会在该系统中生成许多
transactions - JMS 事务
数据库事务是一个熟悉的概念。 try { ... .. updateDB() .. ... commit(); } catch error { rollback(); }
支持传播的 Spring 事务
我想了解使用传播支持进行 Spring 交易的用途。 java 文档提到如果具有 @Transactional(propagation = Propagation.SUPPORTS) 的方法从支持该事
hibernate 事务 ID
我需要获取 hibernate 的事务 ID。对于每笔交易，此 ID 必须是唯一的。我尝试使用 session.getTransaction().hashCode()，但我相信这个值不是唯一的。最佳
重启并启用持久性后的 firebase 事务
我从 firebase 收到以下消息:runTransactionBlock:启用持久性时检测到的使用情况。请注意，事务不会在应用重新启动后保留。那么应用程序重新启动后到底会发生什么？由于主数据库的
Java Jdbc 事务
我需要在 jdbc 中执行选择、更新、插入查询的序列。这是我的代码: public String editRequest(){ connection = DatabaseUtil.getServi
Java "Aggregate"事务
Java 是否提供了一种智能“聚合”事务的方法？如果我有多个异构数据存储库，我想保持同步(即用于数据的 Postgres、用于图表的 Neo4j 以及用于索引的 Lucene)，是否有一个范例仅允许
事务、锁、隔离级别
我对标题中的主题有几个问题。首先，假设我们使用 JDBC，并且有 2 个事务 T1 和 T2。在 T1 中，我们在一个特定的行上执行 select 语句。然后我们对该行执行更新。在事务 T2 中，我们
Python CGI 事务
我有一个 Python CGI 处理支付交易。当用户提交表单时，CGI 被调用。提交后，CGI 需要一段时间才能执行信用卡交易。在此期间，用户可能会按下 ESC 或刷新按钮。这样做不会“杀死”CGI，
python - Django 事务
我有一个代码，类似这样 def many_objects_saving(list_of_objects): for some_object in list_of_objects:
具有许多更新的 MySQL 事务
我有一个包含 100,000 条记录的表。我正在考虑使用事务来更新数据。将有一个查询将一列更新为零，并且大约有 5000 个更新，每个更新将更新一条记录。这些大型事务对内存有何影响？事务运行时选择数
PHP MySQL 事务
有没有办法在一个命令中执行 SQL 事务？例如 mysql_query(" START TRANSACTION; INSERT INTO table1 ....etc; INSERT INTO tab
具有相关查询的 MySql 事务
真心希望能帮到你! 我使用以下函数在 PHP/MySql 应用程序中发送消息: public function sendMail($sender_id, $recipient_id, $subject

首页

博学

6Ren·AI

商城

MySQL事务死锁问题排查

1、背景

2、分析思路

2.1 Innodb中的锁

2.1.1 行级锁

2.1.2 RR隔离级别下加锁示例

1、唯一索引等值查询

2、唯一索引范围查询

3、非唯一索引等值查询

4、非唯一索引范围查询

2.1.3 意向锁（Intention Locks）

2.1.4 插入意向锁

2.2 过程分析

3、解决方法

首页

博学

6Ren·AI

商城

MySQL事务死锁问题排查

﻿1、背景

2、分析思路

2.1 Innodb中的锁

2.1.1 行级锁

2.1.2 RR隔离级别下加锁示例

1、唯一索引等值查询

2、唯一索引范围查询

3、非唯一索引等值查询

4、非唯一索引范围查询

2.1.3 意向锁（Intention Locks）

2.1.4 插入意向锁

2.2 过程分析

3、解决方法

1、背景