sql - 通过多个连接、分组依据和排序依据加快查询速度-6ren

sql - 通过多个连接、分组依据和排序依据加快查询速度

转载作者：行者123 更新时间：2023-11-29 13:09:54

25

4

我有一个 SQL 查询:

SELECT
title,
(COUNT(DISTINCT A.id)) AS "count_title"

FROM 
B 
INNER JOIN D ON B.app = D.app
INNER JOIN A ON D.number = A.number 
INNER JOIN C ON A.id = C.id 

GROUP BY C.title
ORDER BY count_title DESC
LIMIT 10
;

D 表包含 50M 条记录，A 表包含 30M 条记录，B 和 C 各包含 30k 条记录。索引在连接、分组依据、排序依据中使用的所有列上定义。

查询在没有 order by 语句的情况下工作正常，并在大约 2-3 秒内返回结果。

但是，随着排序操作(order by)，查询时间增加到 10-12 秒。

我理解这背后的原因，执行者必须遍历所有记录进行排序操作，索引在这里几乎没有帮助。

还有其他一些方法可以加快这个查询吗？

下面是这个查询的解释分析:

"QUERY PLAN"
"Limit  (cost=974652.20..974652.22 rows=10 width=54) (actual time=2817.579..2825.071 rows=10 loops=1)"
"  Buffers: shared hit=120299 read=573195"
"  ->  Sort  (cost=974652.20..974666.79 rows=5839 width=54) (actual time=2817.578..2817.578 rows=10 loops=1)"
"        Sort Key: (count(DISTINCT A.id)) DESC"
"        Sort Method: top-N heapsort  Memory: 26kB"
"        Buffers: shared hit=120299 read=573195"
"        ->  GroupAggregate  (cost=974325.65..974526.02 rows=5839 width=54) (actual time=2792.465..2817.097 rows=3618 loops=1)"
"              Group Key: C.title"
"              Buffers: shared hit=120299 read=573195"
"              ->  Sort  (cost=974325.65..974372.97 rows=18931 width=32) (actual time=2792.451..2795.161 rows=45175 loops=1)"
"                    Sort Key: C.title"
"                    Sort Method: quicksort  Memory: 5055kB"
"                    Buffers: shared hit=120299 read=573195"
"                    ->  Gather  (cost=968845.30..972980.74 rows=18931 width=32) (actual time=2753.402..2778.648 rows=45175 loops=1)"
"                          Workers Planned: 1"
"                          Workers Launched: 1"
"                          Buffers: shared hit=120299 read=573195"
"                          ->  Parallel Hash Join  (cost=967845.30..970087.64 rows=11136 width=32) (actual time=2751.725..2764.832 rows=22588 loops=2)"
"                                Hash Cond: ((C.id)::text = (A.id)::text)"
"                                Buffers: shared hit=120299 read=573195"
"                                ->  Parallel Seq Scan on C  (cost=0.00..1945.87 rows=66687 width=32) (actual time=0.017..4.316 rows=56684 loops=2)"
"                                      Buffers: shared read=1279"
"                                ->  Parallel Hash  (cost=966604.55..966604.55 rows=99260 width=9) (actual time=2750.987..2750.987 rows=20950 loops=2)"
"                                      Buckets: 262144  Batches: 1  Memory Usage: 4032kB"
"                                      Buffers: shared hit=120266 read=571904"
"                                      ->  Nested Loop  (cost=219572.23..966604.55 rows=99260 width=9) (actual time=665.832..2744.270 rows=20950 loops=2)"
"                                            Buffers: shared hit=120266 read=571904"
"                                            ->  Parallel Hash Join  (cost=219571.79..917516.91 rows=99260 width=4) (actual time=665.804..2583.675 rows=20950 loops=2)"
"                                                  Hash Cond: ((D.app)::text = (B.app)::text)"
"                                                  Buffers: shared hit=8 read=524214"
"                                                  ->  Parallel Bitmap Heap Scan on D  (cost=217542.51..895848.77 rows=5126741 width=13) (actual time=661.254..1861.862 rows=6160441 loops=2)"
"                                                        Recheck Cond: ((action_type)::text = ANY ('{10,11}'::text[]))"
"                                                        Heap Blocks: exact=242152"
"                                                        Buffers: shared hit=3 read=523925"
"                                                        ->  Bitmap Index Scan on D_index_action_type  (cost=0.00..214466.46 rows=12304178 width=0) (actual time=546.470..546.471 rows=12320882 loops=1)"
"                                                              Index Cond: ((action_type)::text = ANY ('{10,11}'::text[]))"
"                                                              Buffers: shared hit=3 read=33669"
"                                                  ->  Parallel Hash  (cost=1859.36..1859.36 rows=13594 width=12) (actual time=4.337..4.337 rows=16313 loops=2)"
"                                                        Buckets: 32768  Batches: 1  Memory Usage: 1152kB"
"                                                        Buffers: shared hit=5 read=289"
"                                                        ->  Parallel Index Only Scan using B_index_app on B  (cost=0.29..1859.36 rows=13594 width=12) (actual time=0.015..2.218 rows=16313 loops=2)"
"                                                              Heap Fetches: 0"
"                                                              Buffers: shared hit=5 read=289"
"                                            ->  Index Scan using A_index_number on A  (cost=0.43..0.48 rows=1 width=24) (actual time=0.007..0.007 rows=1 loops=41900)"
"                                                  Index Cond: ((number)::text = (D.number)::text)"
"                                                  Buffers: shared hit=120258 read=47690"
"Planning Time: 0.747 ms"
"Execution Time: 2825.118 ms"

最佳答案

您可以尝试在 b 和 d 之间进行嵌套循环连接，因为 b 小得多:

CREATE INDEX ON d (app);

如果 d 被足够频繁地清理，您可以看到仅索引扫描是否更快。为此，在索引中包含 number(在 v11 中，为此使用 INCLUDE 子句!)。 EXPLAIN 输出表明您在 action_type 上有一个额外的条件；对于仅索引扫描，您还必须包含该列。

关于sql - 通过多个连接、分组依据和排序依据加快查询速度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56334762/

25

4

0

文章推荐： ios - 显示特定位置 MKMapkit 后缩放到用户位置？

文章推荐： php - 无法连接 MySQL

文章推荐： ios - 使一键更改标签文本以在模式之间切换

文章推荐： mysql - Codeigniter 不返回数据库中存在的一些记录

javascript - 您如何检查机器人是否被 ping 通？
我正在创建一个“杀死”人的命令。我希望机器人返回消息“哈!你以为!@Author 死了!”如果他们 ping 机器人。 (我如何让机器人查看它是否被 ping 过？)答案已更新并且现在可以正常工作。
heroku - 为什么我无法 ping 通 herokuapp
我有一个在heroku 上运行的应用程序，例如my-app.herokuapp.com。但是，如果我输入 ping -c 10 my-app.herokuapp.com 在Mac终端中，它显示请求超时
kubernetes - K8s 服务无法 ping 通
我在 minikube 集群中有一个 k8s 服务/部署(default 命名空间中的名称 amq: D20181472:argo-k8s gms$ kubectl get svc --all-nam
amazon-ec2 - EC2 实例无法互相 ping 通
我有 2 个 EC2 Ubuntu 实例。它们共享相同的 VPC、子网和安全组。实例的防火墙已关闭。但是私网IP还是无法互相ping通。如何让这些实例互相 ping 通？最佳答案在安全组中，为“回
Linux 无法 ping 通 google.com
我可以连接到我的 wifi(另一台笔记本电脑在此网络上正常)，但是浏览器不会加载网页，并且我无法 ping 通 google.com 我注意到的一件奇怪的事情是，如果我查看/etc/resolv.co
c# - 为什么使用 PUBSUB 订阅时无法 PING 通？
我在 Azure 上使用 PUBSUB 时遇到问题。 Azure 防火墙将关闭闲置任意时间的连接。对于时间长度存在很多争议，但人们认为大约是 5 - 15 分钟。我使用 Redis 作为消息队列。为
apache-flex - 我如何从 Flex - AIR ping 通？
我很无聊，因为我的开发服务器已关闭，我正在运行命令提示符以无限期地 ping 服务器，以便我看到它们何时停止超时并知道我可以再次工作。与此同时，我想制作一个 Air 应用程序来为我做这件事，所以当它开
echo - 是否可以从内部 nat 外部 ping 通 nat？
是否可以向 nat 后面的主机发送回显请求后。所有的 echo-request 都不包含目标主机的端口，因此如果有多个主机使用相同的外部 ip 地址，nat 将如何将 echo-reques
azure - 无法 ping 通 Windows Azure 外部的虚拟机
我按照以下链接创建了 azure 实例 http://michaelwasham.com/2013/09/03/connecting-clouds-site-to-site-aws-azure/ 我可
networking - 网站无法 ping 通，但可以通过 Web 浏览器打开
friend 们，我认为这是一件奇怪的事情(至少对我来说)。因为我了解到互联网上的每个域名都有一个对应的IP地址。它存储在 DNS 上的某个位置。现在，这就是我从命令行 ping google.co
Kubernetes pod 无法使用 ClusterIP 相互 ping 通
我正在尝试使用分配给 kube-dns 服务的集群 IP 从 dnstools pod ping kube-dns 服务。 ping 请求超时。在同一个 dnstools pod 中，我尝试使用暴露的
azure - 无法 ping 通 Windows Azure 外部的虚拟机
我按照以下链接创建了 azure 实例 http://michaelwasham.com/2013/09/03/connecting-clouds-site-to-site-aws-azure/ 我可
linux - 无法 ping 通 vmware 中的默认网关 linux
我有一个虚拟网络 vmnet2，使用 10.0.2.0/24 网络，我希望我的 Linux 服务器能够 ping 默认网关。我已将 Linux eth1 值设置为 IPADDR="10.0.2.50
mysql - 无法 ping 通 AWS RDS 端点
我想将我的本地 mysql 数据库迁移到 Amazon RDS。但首先我想测试它是否正在接收通信。所以我尝试ping它。但是尝试超时。 ping -c 5 myfishdb.blackOut.us-w
amazon-web-services - 无法 ping 通 EC2 服务器
我对 AWS 很陌生，已经测试过启动一个实例，如下所示: 下面是安全组，附加了inbound规则我的问题是我无法 ping 通这台服务器。我可以知道我是否理解错了什么吗？最佳答案您需要为其创建新
amazon-web-services - 无法 ping 通 EC2 服务器
我对 AWS 很陌生，已经测试过启动一个实例，如下所示: 下面是安全组，附加了inbound规则我的问题是我无法 ping 通这台服务器。我可以知道我是否理解错了什么吗？最佳答案您需要为其创建新
perl - 如何使用 perl 查找 IP 地址是否可 ping 通？
如何确定 IP 地址是否可 ping 通？另外，如何使用 perl 脚本找到可 ping 的 IP 是静态的还是动态的？最佳答案看看 Net::Ping模块； #!/usr/bin/env per
javascript - 如果无法 ping 通 URL，则更改 div 的类。 (测试站点是否关闭)
我已经研究这个有一段时间了。对于网站 static.etreeblog.com，如果网站离线，我想更改 duv 的类。我研究过的方法: - 使用带有图像的 onerror 标签来运行函数。-问题:我
linux - 接口(interface)无法通过 ovs vxlan 互相 ping 通
我正在使用 OpenvSwitch-2.5.2 在两个虚拟机上设置第 2 层网络，如上图所示。在阅读了 ovs 官方教程和其他一些文章后，我在每个虚拟机上尝试了以下命令: # on vm1 ip l
linux - 即使我可以 ping 通，也无法在 Docker 中 curl 链接的容器
我有一个名为 backend 的 Docker 容器，它公开了一个端口 8200，并在其中的 gunicorn 后面运行了一个 django 服务器。这是我的 Dockerfile: FROM deb

首页

博学

6Ren·AI

商城

sql - 通过多个连接、分组依据和排序依据加快查询速度