MySQL的一条慢SQL查询导致整个网站宕机的解决方法-6ren

MySQL的一条慢SQL查询导致整个网站宕机的解决方法

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章MySQL的一条慢SQL查询导致整个网站宕机的解决方法由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

直接切入正题吧

通常来说，我们看到的慢查询一般还不致于导致挂站，顶多就是应用响应变慢不过这个恰好今天被我撞见了，一个慢查询把整个网站搞挂了先看看这个SQL张撒样子:

# Query_time: 70.472013 Lock_time: 0.000078 Rows_sent: 7915203 Rows_examined: 15984089 Rows_affected: 0 # Bytes_sent: 1258414478 use js_sku; SET timestamp=1465850117; SELECT ss_id, ss_sa_id, ss_si_id, ss_av_zid, ss_av_fid, ss_artno, ss_av_zvalue, ss_av_fvalue, ss_av_zpic, ss_av_fpic, ss_number, ss_sales, ss_cprice, ss_price, ss_stock, ss_orderid, ss_status, ss_add_time, ss_lastmodify FROM js_sgoods_sku WHERE ss_si_id = 0 AND ss_status > 0 ORDER BY ss_orderid DESC, ss_av_fid ASC; 这里贴出来的就是 mysql slow log 的信息，查询时间用了高达 70s！！看到慢查询我们一般第一反应是这个语句没有用到索引？或者是索引不合理么？那我们会去看看执行计划:

这个看起来似乎用到了索引，可是为什么扫描到行还是这么多呢？那我们就去看看表结构了，期望能从中找到点有价值的东西：我们看到如下可用信息： KEY `ss_si_id` (`ss_si_id`,`ss_av_zid`,`ss_av_fid`) USING BTREE, `ss_si_id` int(11) unsigned NOT NULL DEFAULT '0' COMMENT '对应js_sgoods_info.si_id'.

我们看到索引似乎还能比较能够接受，但是我们看到这个 ss_si_id 这个字段实际上是 goods_info 表的主键，也就是说它的离散程度应该是很大的，也就是区分度很大。其实到这一步我们基本上可以认为是由于我们这个表里边有很多 ss_si_id=0 导致，不过我们可以进一步的来证实我们的猜想:

1. 首先我们可以先确定我们的统计信息没有问题 2. 其次我们再count ss_si_id=0 的这个值有多少数据，来进一步验证我们的猜想.

我们可以看到 ss_si_id 的离散程度（Cardinality）没有增加反而有向下波动的趋势，因为这个信息是采集部分页的来的，而每个页上边数据分布是不一样的，导致我们这个索引收集的统计信息就回有所变化.

好吧，到这里我们可以认为我们的统计信息没有失效，那么我们就看数据的分别情况咯:

+--------------++----------++------------------+ | ss_si_id=0; || count(*) || 7994788/19048617 | +--------------++----------++------------------+ | 7994788 || 19048617 || 0.4197 | +--------------++----------++------------------+ 。

额，不看不知道，一看吓一跳：我们这个表里边存在有大量的 ss_si_id＝0 的情况，占了整个表数据量的 41% ！！！。

好吧问题找到了，那么接下来我们需要知道，为什么这个SQL语句会导致挂站呢?

我们通过观看应用程序服务器的监控看到一些信息：我们的 goods_service 这个服务异常：异常情况如下:

1. cpu 长期占用100% ＋ 2. jstatck pid 无法dump 内存堆栈信息，必须强制dump －F 3. dump 出来的内存信息发现，这个进程里边所有线程均处于 BLOCKED 状态 4. 通过jstat －gcutil 看到 FGC 相当频繁，10s左右就FGC一次 5. 内存占用超过了分配的内存。

那么最终的原因就是因为上边的慢查询查询了大量数据（最多有700w行数据），导致goods_service 内存暴涨，出现服务无法响应，进一步的恶化就是挂占。

OK，知道了为什么会挂占，那么我们是如何解决这个问题的呢？既然我们知道是由于查询了 ss_si_id＝0 导致的，那么我们屏蔽掉这个SQL不就好了么。屏蔽的办法可以有多种： 1. 我们程序逻辑判断一下这类型的查询如果有查询 ss_si_id＝0 的一律封杀掉 2. 我们改改SQL配置文件，修改SQL语句。

我们发现DB服务器上存在大量的这个慢查询，而且DB服务器负载已经从 0.xx 飙升到了 50+ 了，随之而来的连接数也飙升的厉害，如果再不及时处理，估计DB服务器也挂掉了。

。

那么我们最终采取以下处理办法： 1.运维配合研发修改SQL语句我们在这个WHERE 条件中添加了一个条件： AND ss_si_id <> 0 ,在MySQL之行计划层屏蔽掉此SQL; 2.DBA 开启kill 掉这个查询语句，避免DB服务器出现down机的情况，当然这个就用到了我们的 pt-kill 工具，不得不说这个工具相当好用。

总结（经验与教训）： 1.类似这种查询 default 值的 SQL ，我们应该从源头上杜绝这类查询 2.限制查询结果集大小，避免因查询结果集太大导致服务死掉。

最后此篇关于MySQL的一条慢SQL查询导致整个网站宕机的解决方法的文章就讲到这里了,如果你想了解更多关于MySQL的一条慢SQL查询导致整个网站宕机的解决方法的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： MySQL 常见数据拆分办法

文章推荐： MySQL复制出错 Last_SQL_Errno:1146的解决方法

文章推荐： mysql数据库主从复制的配置方法

文章推荐： session 加入mysql库的方法

PHP 代码每次运行都会导致 EC2 宕机
我已经为我的 PHP 代码设置了一个 Cron 作业，每 20 分钟运行一次。但它每次都会杀死 EC2 t2micro 实例。这是服务器日志。请帮忙。 ip-172-31-42-52 login: [
c# - MassTransit 如何处理 RabbitMQ 宕机
将 MassTransit 配置为容错以处理间歇性 RabbitMQ 连接问题或 RabbitMQ 完全崩溃的正确方法是什么？我已经在两台不同的机器之间设置了一个 RabbitMQ 集群并配置了 HA
multithreading - 达到最大线程数后 Tomcat 6 宕机
我们的 Tomcat 6.0.29 在达到最大线程数后宕机。我真的很感激任何帮助，因为它是一个生产服务器。这是 catalina.log 文件的一部分: INFO: Maximum number o
java - 如果 Redis 宕机，Springboot 无法启动
Redis 在我的应用程序中是可选的，这是即使 Redis 关闭，应用程序必须能够毫无问题地启动的要求之一。我能够用 spring-data-redis 处理这个问题 1.8.1 版本，但升级到时
因为一次 Kafka 宕机，我明白了 Kafka 高可用原理！
Kafka宕机引发的高可用问题问题要从一次Kafka的宕机开始说起。笔者所在的是一家金融科技公司，但公司内部并没有采用在金融支付领域更为流行的RabbitMQ，而是采用了设计之初就为日志处理
java - Spark 2.4.0 Master 宕机
我们正在运行 Spark 2.4.0/Scala 2.11，并且运行一些监听 Kafka 主题的 Spark 流应用程序。它是 Spark Kafka Direct 流 API，我们正在运行 4 个
c# - Primary 宕机，Secondary 现在是 Primary - 如何写入新的 Primary？
如果我有一个 MongoDB 副本集，其中有 3 个节点(主要节点、次要节点、仲裁节点)，并且主要节点出现故障，现在次要节点成为主要节点，您如何动态处理客户端中的更改，以便它们现在写入基本的？我在开
ruby-on-rails - 6 个 ruby 进程在 mysql 上调用 SHOW TABLES，导致 mysql 宕机
我正在运行 Rails 3.1.0 应用程序，但遇到了一个奇怪的问题。在我们的登台服务器上，只有很少的事件，我们有 5 个 ruby 进程不断地使用以下命令 ping mySQL: poll([{

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

MySQL的一条慢SQL查询导致整个网站宕机的解决方法