- ubuntu12.04环境下使用kvm ioctl接口实现最简单的虚拟机
- Ubuntu 通过无线网络安装Ubuntu Server启动系统后连接无线网络的方法
- 在Ubuntu上搭建网桥的方法
- ubuntu 虚拟机上网方式及相关配置详解
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界.
这篇CFSDN的博客文章使用limit,offset分页场景时为什么会慢由作者收集整理,如果你对这篇文章有兴趣,记得点赞哟.
从一个问题说起 。
五年前在腾讯的时候,发现分页场景下,mysql请求速度非常慢。数据量只有10w的情况下,select xx from 单机大概2,3秒.
我就问我师父为什么,他反问“索引场景,mysql中获得第n大的数,时间复杂度是多少?” 。
答案的追寻 。
确认场景 。
假设status上面有索引。select * from table where status = xx limit 10 offset 10000.
会非常慢。数据量不大的情况就有几秒延迟.
小白作答 。
那时候非常有安全感,有啥事都有师父兜着,反正技术都是组里最差的,就瞎猜了个log(N),心想找一个节点不就是log(N)。自然而然,师父让我自己去研究.
这一阶段,用了10分钟.
继续解答 。
仔细分析一下,会发现通过索引去找很别扭。因为你不知道前100个数在左子树和右子数的分布情况,所以其是无法利用二叉树的查找特性.
通过学习,了解到mysql的索引是b+树.
看了这个图,就豁然开朗了。可以直接通过叶子节点组成的链表,以o(n)的复杂度找到第100大的树。但是即使是o(n),也不至于慢得令人发指,是否还有原因.
这一阶段,主要是通过网上查资料,断断续续用了10天.
系统学习 。
这里推荐两本书,一本《MySQL技术内幕 InnoDB存储引擎》,通过他可以对InnoDB的实现机制,如mvcc,索引实现,文件存储会有更深理解.
第二本是《高性能MySQL》,这本书从着手使用层面,但讲得比较深入,而且提到了很多设计的思路.
两本书相结合,反复领会,mysql就勉强能登堂入室了.
这里有两个关键概念:
聚簇索引:包含主键索引和对应的实际数据,索引的叶子节点就是数据节点 辅助索引:可以理解为二级节点,其叶子节点还是索引节点,包含了主键id.
即使前10000个会扔掉,mysql也会通过二级索引上的主键id,去聚簇索引上查一遍数据,这可是10000次随机io,自然慢成哈士奇.
这里可能会提出疑问,为什么会有这种行为,这是和mysql的分层有关系,limit offset 只能作用于引擎层返回的结果集。换句话说,引擎层也很无辜,他并不知道这10000个是要扔掉的.
以下是mysql分层示意图,可以看到,引擎层和server层,实际是分开的.
直到此时,大概明白了慢的原因。这一阶段,用了一年.
触类旁通 。
此时工作已经3年了,也开始看一些源码。在看完etcd之后,看了些tidb的源码。无论哪种数据库,其实一条语句的查询,是由逻辑算子组成.
逻辑算子介绍 。
在写具体的优化规则之前,先简单介绍查询计划里面的一些逻辑算子.
DataSource 这个就是数据源,也就是表,select * from t 里面的 t。 Selection 选择,例如 select xxx from t where xx = 5 里面的 where 过滤条件。 Projection 投影, select c from t 里面的取 c 列是投影操作。 Join 连接, select xx from t1, t2 where t1.c = t2.c 就是把 t1 t2 两个表做 Join.
选择,投影,连接(简称 SPJ) 是最基本的算子。其中 Join 有内连接,左外右外连接等多种连接方式.
select b from t1, t2 where t1.c = t2.c and t1.a > 5变成逻辑查询计划之后,t1 t2 对应的 DataSource,负责将数据捞上来.
上面接个 Join 算子,将两个表的结果按 t1.c = t2.c连接,再按 t1.a > 5 做一个 Selection 过滤,最后将 b 列投影.
下图是未经优化的表示:
所以说不是mysql不想把limit, offset传递给引擎层,而是因为划分了逻辑算子,所以导致无法直到具体算子包含了多少符合条件的数据.
怎么解决 。
《高性能MySQL》提到了两种方案 。
方案一 。
根据业务实际需求,看能否替换为下一页,上一页的功能,特别在ios, android端,以前那种完全的分页是不常见的.
这里是说,把limit, offset,替换为>辅助索引(即搜索条件)id的方式。该id再调用时,需要返回给前端.
方案二 。
正面刚。这里介绍一个概念:索引覆盖:当辅助索引查询的数据,只有id和辅助索引本身,那么就不必再去查聚簇索引.
思路如下:select xxx,xxx from in (select id from table where second_index = xxx limit 10 offset 10000)这句话是说,先从条件查询中,查找数据对应的数据库唯一id值,因为主键在辅助索引上就有,所以不用回归到聚簇索引的磁盘去拉取。再通过这些已经被limit出来的10个主键id,去查询聚簇索引。这样只会十次随机io.
在业务确实需要用分页的情况下,使用该方案可以大幅度提高性能。通常能满足性能要求.
写在最后 。
非常感谢我师父在我毕业前三年的指导,给了我很多耐心。在节假日给我布置看书任务,在午休时候考察我学习的进展,通过提问的方式引导我去探索问题,在我从腾讯毕业后,每次见面也给我出了很多主意,传授授业解惑,无一没有做到极致.
原文链接:https://blog.csdn.net/tTU1EvLDeLFq5btqiK/article/details/103193368 。
最后此篇关于使用limit,offset分页场景时为什么会慢的文章就讲到这里了,如果你想了解更多关于使用limit,offset分页场景时为什么会慢的内容请搜索CFSDN的文章或继续浏览相关文章,希望大家以后支持我的博客! 。
看来 OFFSET由于性能低下,不建议在处理大记录时使用类似 WHERE id < x LIMIT y 的东西. 如果是这种情况,为什么 OFFSET 存在,它还有其他用途吗? 最佳答案 从概念上讲,
我用过 objdump -M intel -d test 和 objdump -d test 使用 gcc 686-elf 交叉编译器反汇编一个非常简单的 for 循环。在这两种情况下,我都会得到以下
我正在尝试遵循本指南: https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html但我不明白为什么
我正在尝试遵循本指南: https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html但我不明白为什么
这个问题已经有答案了: MySQL Data - Best way to implement paging? (9 个回答) 已关闭 3 年前。 我是 SQL 世界的新手。 现在,我有以下查询: SE
托管我的db 的服务器位于美国。当我向 db 添加项目时,我希望使用 Australia/Sydney 时间存储时间。无论用户在哪个国家/地区,如果他们检索此记录,都应使用 Australia/Syd
我有一个 周边其中也有一些图像,和一段文字。 都是inline-block .每当 H2 延伸到两行时,下一个 是抵消。以下是屏幕截图。 HTML:
我正在尝试使用时区偏移量和 UTC 时间戳来调整时间。 我正在运行以下代码: var date = { utc: '2013-10-16T21:31:51', offset: -480
我不应该在我的应用程序中使用 jQuery,但我有一个场景,我需要元素的偏移量,而不是使用 $(element).offset() 我已经使用了 angular.element(element).of
我有一个包含 ID、NAME、PRICE 和 DATE 列的表。 我正在尝试编写一个分页式导航,因为表中有很多条目,所以查看整个 SELECT 的输出变得不舒服。 我写了以下请求: SELECT id
我现在已经多次看到提到的这段代码,执行 Max(a+1, a-1) 有什么意义?一开始我以为可能是为了防止下溢,但是在那种情况下不防止下溢真的没有意义。 最佳答案 谷歌搜索让我怀疑这可能是由某些(可能
我正在尝试创建一种将时间从一个时区转换为另一个时区的小方法。我认为这很简单,但是当我部署它时我得到了这个错误 The UTC Offset of the local dateTime paramete
我有一个相当复杂的 SQL 查询,涉及从大量连接返回大约 20 列,用于在 UI 中填充结果网格。它还使用几个 CTE 来预过滤结果。我在下面包含了查询的近似值(我已经注释掉了修复性能的行) 随着数据
所以我试图减去 datetime 对象。我使用 dateutil.parser 获得了一个,另一个来自 datetime.now()。我不断得到一个 TypeError: can't subtract
所以我试图减去 datetime 对象。我使用 dateutil.parser 获得了一个,另一个来自 datetime.now()。我不断得到一个 TypeError: can't subtract
我有一个 Pandas 数据框: name my_timestamp ------------------------------------------ 0 a1 201
我只是 Bootstrap 4 的初学者。 我最近才开始学习它,很遗憾,我已经遇到了问题。我修改了 Bootstrap 4 手册本身的一些代码。然而,它惨遭失败,偏移量无法正常工作。代码非常简单,但不
我尝试使用 R 进行回归。我有以下代码,导入 CSV 文件没有问题 dat <- read.csv('http://pastebin.com/raw.php?i=EWsLjKNN',sep="
假设我有 search.php 和 edit.php。在 search.php 中,他们可以删除和更新一些记录。如果用户单击“更新”按钮,系统会将用户重定向到另一个名为 edit.php 的页面。我成
我正在使用流行的 css hack 在 Internet Explorer 8 中启用边框半径,可在此处找到:( Curved-corner-border-radius-cross-browser)。
我是一名优秀的程序员,十分优秀!