sql - 优化和/或索引此查询的正确方法是什么？-6ren

sql - 优化和/或索引此查询的正确方法是什么？

转载作者：行者123 更新时间：2023-11-29 13:03:11

25

4

我有一张 pings 表，其中包含大约 1500 万行。我在 postgres 9.2.4 上。它具有的相关列是外键 monitor_id、created_at 时间戳和 response_time(代表毫秒的整数)。这是确切的结构:

     Column      |            Type             |                     Modifiers                      
-----------------+-----------------------------+----------------------------------------------------
 id              | integer                     | not null default nextval('pings_id_seq'::regclass)
 url             | character varying(255)      | 
 monitor_id      | integer                     | 
 response_status | integer                     | 
 response_time   | integer                     | 
 created_at      | timestamp without time zone | 
 updated_at      | timestamp without time zone | 
 response_body   | text                        | 
Indexes:
    "pings_pkey" PRIMARY KEY, btree (id)
    "index_pings_on_created_at_and_monitor_id" btree (created_at DESC, monitor_id)
    "index_pings_on_monitor_id" btree (monitor_id)

我想查询所有非NULL的响应时间(90%不会是NULL，大约10%会是NULL)，它们具有特定的 monitor_id，并且是在上个月创建的。我正在使用 ActiveRecord 进行查询，但最终结果如下所示:

SELECT "pings"."response_time"
FROM "pings"
WHERE "pings"."monitor_id" = 3
AND (created_at > '2014-03-03 20:23:07.254281'
AND response_time IS NOT NULL)

这是一个非常基本的查询，但运行大约需要 2000 毫秒，这看起来相当慢。我假设索引会使它更快，但我尝试过的所有索引都不起作用，我假设这意味着我没有正确编制索引。

当我运行 EXPLAIN ANALYZE 时，这是我得到的:

Bitmap Heap Scan on pings  (cost=6643.25..183652.31 rows=83343 width=4) (actual time=58.997..1736.179 rows=42063 loops=1)
  Recheck Cond: (monitor_id = 3)
  Rows Removed by Index Recheck: 11643313
  Filter: ((response_time IS NOT NULL) AND (created_at > '2014-03-03 20:23:07.254281'::timestamp without time zone))
  Rows Removed by Filter: 324834
  ->  Bitmap Index Scan on index_pings_on_monitor_id  (cost=0.00..6622.41 rows=358471 width=0) (actual time=57.935..57.935 rows=366897 loops=1)
        Index Cond: (monitor_id = 3)

所以在 monitor_id 上有一个索引被使用到最后，但没有别的。我使用 monitor_id、created_at 和 response_time 尝试了复合索引的各种排列和顺序。我试过按 created_at 降序排列索引。我已经尝试使用 response_time IS NOT NULL 的部分索引。

我尝试过的任何方法都无法使查询更快。您将如何对其进行优化和/或编制索引？

最佳答案

列的顺序

创建一个 partial multicolumn index具有正确的列顺序。你有一个:

"index_pings_on_created_at_and_monitor_id" btree (created_at DESC, monitor_id)

但是列的顺序并不适合您。反转它:

CREATE INDEX idx_pings_monitor_created ON pings (<b>monitor_id, created_at DESC</b>)
WHERE response_time IS NOT NULL;

这里的经验法则是:首先是平等，然后是范围。更多相关信息:
Multicolumn index and performance

正如所讨论的，条件 WHERE response_time IS NOT NULL 对您来说意义不大。如果您有其他查询可以利用此索引，包括 response_time 中的 NULL 值，请删除它。否则，保留它。

您也可以删除其他两个现有索引。更多关于 btree 索引中列的顺序:
Working of indexes in PostgreSQL

覆盖索引

如果您只需要从表中获取response_time，这可能会快得多 - 如果您没有对表的行进行大量写操作。在索引的最后位置包含该列以允许 index-only scans (使其成为“覆盖索引”):

CREATE INDEX idx_pings_monitor_created
ON     pings (monitor_id, created_at DESC, <b>response_time</b>)
WHERE  response_time IS NOT NULL;  -- maybe

或者，你甚至尝试这个..

更激进的部分索引

创建一个小辅助函数。实际上是您数据库中的“全局常量”:

CREATE OR REPLACE FUNCTION f_ping_event_horizon()
  RETURNS timestamp LANGUAGE sql IMMUTABLE COST 1 AS
$$SELECT '2014-03-03 0:0'::timestamp$$;  -- One month in the past

将其用作索引中的条件:

CREATE INDEX idx_pings_monitor_created_response_time
ON     pings (monitor_id, created_at DESC, response_time)
WHERE  response_time IS NOT NULL  -- maybe
<b>AND   created_at > f_ping_event_horizon()</b>;

您的查询现在看起来像这样:

SELECT response_time
FROM   pings
WHERE  monitor_id = 3
AND    response_time IS NOT NULL
AND    created_at > '2014-03-03 20:23:07.254281'
AND    created_at > f_ping_event_horizon();

旁白:我削减了一些噪音。

最后一个条件在逻辑上似乎是多余的。只包含它，如果 Postgres 不理解它可以在没有它的情况下使用索引。可能是必要的。条件中的实际时间戳必须大于函数中的时间戳。但根据您的评论，情况显然是这样。

通过这种方式，我们删除了所有不相关的行并使索引更小。随着时间的推移，效果会缓慢降低。重新调整事件视界并不时重新创建索引以摆脱增加的重量。例如，您可以每周执行一次 cron 作业。

更新(重新创建)函数时，您需要重新创建以任何方式使用该函数的所有索引。最好在同一笔交易中。因为辅助函数的 IMMUTABLE 声明有点虚假。但是 Postgres 只接受索引定义中的不可变函数。所以我们不得不撒谎。更多相关信息:
Does PostgreSQL support "accent insensitive" collations?

为什么要有这个功能？这样，所有使用索引的查询都可以保持不变。

通过所有这些更改，查询现在应该快几个数量级。只需一次连续的仅索引扫描即可。你能证实吗？

关于sql - 优化和/或索引此查询的正确方法是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22848465/

25

4

0

文章推荐： java - 如何使用参数在触发器中设置模式？

文章推荐： android - Android 的 stretchableImageWithLeftCapWidth (iOS) 是什么？

文章推荐： ios - 英语中所有语言的数组 - iOS

文章推荐： postgresql - 如何禁用 PostgreSQL 的所有优化

sql - SQL、PL-SQL 和 T-SQL 之间有什么区别？
SQL、PL-SQL 和 T-SQL 之间有什么区别？谁能解释一下这三者之间的区别，并提供每一个的相关使用场景？最佳答案 SQL 是一种对集合进行操作的查询语言。它或多或少是标准化的，几乎所有关
sql - T-SQL、SQL Server 和 SQL 有什么区别
这个问题已经有答案了: What is the difference between SQL, PL-SQL and T-SQL? (6 个回答) 已关闭 9 年前。我对 SQL 的了解足以完成我的
sql - Linq To Sql - SQL 默认约束问题
我在数据库中有一个 USER 表。该表有一个 RegistrationDate 列，该列有一个默认约束为 GETDATE()。使用 LINQ 时，我没有为 RegistrationDate 列提供任
sql - 在字符串中查找第二组数字(SQL/PL-SQL)
我有一个可能属于以下类型的字符串 string expected result 15-th-rp 15 15/12-rp 12 15-12-th
sql - 服务器端 sql 与客户端 sql
很难说出这里问的是什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或言辞激烈，无法以目前的形式合理回答。如需帮助澄清此问题以便可以重新打开，visit the help center . 9年前关闭
sql - sql 如何计算 sql 存储过程中的附加表？
我有一个存储过程(称为 sprocGetArticles)，它从文章表中返回文章列表。这个存储过程没有任何参数。用户可以对每篇文章发表评论，我将这些评论存储在由文章 ID 链接的评论表中。有什么方
sql - 嵌入式 SQL 与动态 SQL
我目前正在做一个 *cough*Oracle*cough* 数据库主题。讲师介绍embedded SQL作为让其他语言(例如 C、C++)与(Oracle)数据库交互的方式。我自己做了一些数据库工作
sql - SQL Server SQL 语句可以有多少个字符？
SQL Server 中 SQL 语句的最大长度是多少？这个长度是否取决于 SQL Server 的版本？例如，在 DECLARE @SQLStatement NVARCHAR(MAX) = N'S
sql-server - SQL 行到列 sql
这个问题已经有答案了: Simple way to transpose columns and rows in SQL? (9 个回答) 已关闭 8 年前。 CallType
sql - SQL Server SQL 语句中的动态日期
预先感谢您对此提供的任何帮助。假设我有一个查询，可以比较跨年的数据，从某个任意年份开始，永无止境(进入 future )，每年同一时期直到最后一个完整的月份(其特点是一月数据永远不会显示至 2 月
sql - Linq To Sql - SQL 默认约束问题
我在数据库中有一个 USER 表。该表有一个 RegistrationDate 列，该列的默认约束为 GETDATE()。使用 LINQ 时，我没有为 RegistrationDate 列提供任何数
sql - (SQL Server) SQL 不允许在检查过程是否存在后创建过程
下面是我试图用来检查存储过程是否不存在然后创建过程的 sql。它会抛出一个错误:Incorrect syntax near the keyword 'PROCEDURE' IF NOT EXISTS
sql - 动态 SQL 是否比 SQL Server 中的静态 SQL 性能更高？
我有一个同事声称动态 SQL 在许多情况下比静态 SQL 执行得更快，所以我经常看到 DSQL 到处都是。除了明显的缺点，比如在运行之前无法检测到错误并且更难阅读，这是否准确？当我问他为什么一直使用
sql - exec sp_executesql @sql 和 exec (@sql) SQL Server
来自 lobodava 的动态 SQL 查询是: declare @sql nvarchar(4000) = N';with cteColumnts (ORDINAL_POSITION, CO
sql - 动态 SQL - EXEC(@SQL) 与 EXEC SP_EXECUTESQL(@SQL)
使用 SQL Server 中的存储过程执行动态 SQL 命令的现实优点和缺点是什么 EXEC (@SQL) 对比 EXEC SP_EXECUTESQL @SQL ？最佳答案 sp_executes
c# - SQL > Linq to Sql，SQL 查询有效，Linq to SQL 返回空数据集
我有这个有效的 SQL 查询: select sum(dbos.Points) as Points, dboseasons.Year from dbo.StatLines dbos i
sql-server - "> sql.txt && sql -h-1 -i sql.txt && del sql.txt"命令是什么意思？
我正在调试一些构建成功运行的 SQL 命令的代码。然而，在查询结束时，查询结果似乎被写入了一个文本文件。完整的查询如下 echo SELECT DATE,DATETABLE,DATE,APPDAT
sql - 如何从 MS SQL 数据库(Microsoft SQL Server)中的其他 .sql 文件运行 .sql 文件？
我有一些创建表的 .sql 文件(MS SQL 数据库): 表_1.sql: IF OBJECT_ID (N'my_schema.table1', N'U') IS NOT NULL DROP TAB
sql - 如何在查询中使用 SQL 变量(SQL Server)？
我写了下面的 SQL 存储过程，它一直给我错误@pid = SELECT MAX(... 整个过程是: Alter PROCEDURE insert_partyco @pname varchar(20
sql - 如何将两个列表转换为邻接矩阵 SQL Server T-SQL？
我在 SQL Server 2005 中有包含两列 Fruit 和 Color 的表，如下所示 Fruit Colour Apple Red Orange

首页

博学

6Ren·AI

商城