ruby-on-rails - 按日期和 created_at 排序的多列索引对不同的查询表现出奇怪的行为-6ren

ruby-on-rails - 按日期和 created_at 排序的多列索引对不同的查询表现出奇怪的行为

转载作者：行者123 更新时间：2023-12-04 08:50:46

28

4

在 postgres 10 上，我有一个这样的查询，对于一个包含数百万行的表，以获取属于教室的最新帖子:

SELECT "posts".*
FROM "posts"
WHERE "posts"."school_id" = 1
  AND "posts"."classroom_id" IN (10, 11, 12, 13, 14, 15, 16, 17, 18, 19)
ORDER BY date desc, created_at desc
LIMIT 30 OFFSET 30;

假设教室只属于一所学校。
我有一个像这样的索引:

t.index ["date", "created_at", "school_id", "classroom_id"], name: "optimize_post_pagination"

当我运行查询时，它会像我希望的那样向后进行索引扫描，并在 0.7 毫秒内返回。

Limit  (cost=127336.95..254673.34 rows=30 width=494) (actual time=0.189..0.242 rows=30 loops=1)
  ->  Index Scan Backward using optimize_post_pagination on posts  (cost=0.56..1018691.68 rows=240 width=494) (actual time=0.103..0.236 rows=60 loops=1)
        Index Cond: (school_id = 1)
"        Filter: (classroom_id = ANY ('{10,11,...}'::integer[]))"
Planning time: 0.112 ms
Execution time: 0.260 ms

但是，当我将查询更改为仅包含几个教室时:

SELECT "posts".*
FROM "posts"
WHERE "posts"."school_id" = 1
  AND "posts"."classroom_id" IN (10, 11)
ORDER BY date desc, created_at desc
LIMIT 30 OFFSET 30;

它吓坏了，做了很多额外的工作，花了将近 4 秒:

  ->  Sort  (cost=933989.58..933989.68 rows=40 width=494) (actual time=3857.216..3857.219 rows=60 loops=1)
"        Sort Key: date DESC, created_at DESC"
        Sort Method: top-N heapsort  Memory: 61kB
        ->  Bitmap Heap Scan on posts  (cost=615054.27..933988.51 rows=40 width=494) (actual time=2700.871..3851.518 rows=18826 loops=1)
              Recheck Cond: (school_id = 1)
"              Filter: (classroom_id = ANY ('{10,11}'::integer[]))"
              Rows Removed by Filter: 86099
              Heap Blocks: exact=29256
              ->  Bitmap Index Scan on optimize_post_pagination  (cost=0.00..615054.26 rows=105020 width=0) (actual time=2696.385..2696.385 rows=104925 loops=1)
                    Index Cond: (school_id = 485)

更奇怪的是，如果我放下 WHERE school_id的条款，教室(有几个或多个)的两种情况都可以通过向后索引扫描快速运行。
This index cookbook建议将 ORDER BY 索引列放在最后，如下所示:

t.index ["school_id", "classroom_id", "date", "created_at"], name: "activity_page_index"

但这使我的查询速度变慢，即使成本要低得多。

Limit  (cost=993.93..994.00 rows=30 width=494) (actual time=208.443..208.452 rows=30 loops=1)
  ->  Sort  (cost=993.85..994.45 rows=240 width=494) (actual time=208.436..208.443 rows=60 loops=1)
"        Sort Key: date DESC, created_at DESC"
        Sort Method: top-N heapsort  Memory: 118kB
        ->  Index Scan using activity_page_index on posts  (cost=0.56..985.56 rows=240 width=494) (actual time=0.032..178.147 rows=102403 loops=1)
"              Index Cond: ((school_id = 1) AND (classroom_id = ANY ('{10,11,...}'::integer[])))"
Planning time: 0.132 ms
Execution time: 208.482 ms

有趣的是，随着 activity_page_index查询时，它在用较少的教室进行查询时不会改变其行为。
那么，几个问题 :

使用原始查询，为什么教室数量会产生如此巨大的差异？

为什么掉线school_id WHERE 子句使两种情况都运行得很快？

为什么掉线school_id WHERE 子句使两种情况都运行得很快，即使索引仍然包含 school_id ?

高成本查询如何快速完成(65883 -> 0.7ms)而低成本查询完成更慢(994 -> 208ms)？

其他注意事项

需要同时订购date和 created_at ，即使它们看起来是多余的。

最佳答案

如图所示，您的第一个计划对于您的查询似乎是不可能的。 school_id = 1 标准应该显示为索引条件或过滤条件，但您不会在任何一个条件中显示它。

With the original query, why would the number of classrooms make such a massive difference?

使用原始计划，它通过遍历索引以所需的顺序获取行。一旦它累积了 60 行满足非索引标准，它就会提前停止。因此，其他标准的选择性越强，在获得足够多的行以提前停止之前，它需要遍历的索引最多。从列表中删除教室使其更具选择性，因此使该计划看起来不那么有吸引力。在某些时候，它越过一条线，看起来比其他东西更不吸引人。

Why does dropping the school_id WHERE clause make both cases run fast?

你说每个教室只属于一所学校。但是 PostgreSQL 不知道，它认为这两个标准是独立的，因此通过将两个单独的估计相乘得到整体估计的选择性。这使得它对整体选择性的估计非常具有误导性，这使得已经排序的索引扫描看起来比实际情况更糟。不指定多余的 school_id 可以防止它对标准的独立性做出这种错误的假设。您可以创建多列统计信息来尝试克服这个问题，但在我看来，直到 v13(由于我不明白的原因)，这实际上并不能帮助您处理此查询。
这是关于估计过程，而不是执行。所以 school_id 是否在索引中并不重要。

How can a high cost query finish quickly (65883 -> 0.7ms) and a lower cost query finish slower (994 -> 208ms)?

"It is difficult to make predictions, especially about the future."成本估算是预测。有时它们的效果不是很好。

关于ruby-on-rails - 按日期和 created_at 排序的多列索引对不同的查询表现出奇怪的行为，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64107282/

28

4

0

文章推荐： azure - 如何根据 set_facts 将多个 ansible 条件合并为一个

文章推荐： CKEditor 5链接: Set default target for links or edit target

文章推荐： strapi - 你能限制对部分 Strapi admin 的访问吗？

mysql - 如何按 ASC 顺序获取 MySql 不同(不同)值
我有 table 像这样 -------------------------------------------- id size title priority
java - 不同 Activity 中的 AdMob 广告单元 ID 不同？提高匹配率？
我的应用在不同的 Activity (4 个 Activity )中仅包含横幅广告。所以我的疑问是，我可以对所有横幅广告使用一个广告单元 ID 吗？或者每个 Activity 使用不同的广告单元
没有isinstance的列表列表上的python递归(不同)
我有任意(但统一)数字列表的任意列表。 (它们是 n 空间中 bin 的边界坐标，我想绘制其角，但这并不重要。)我想生成所有可能组合的列表。所以:[[1,2], [3,4],[5,6]] 产生 [[1
Java自定义控件重绘导致绘制不正确(不同)
我刚刚在学校开始学习 Java，正在尝试自定义控件和图形。我目前正在研究图案锁，一开始一切都很好，但突然间它绘制不正确。我确实更改了一些代码，但是当我看到错误时，我立即将其更改回来(撤消，ftw)，但
sql - 分组依据汇总和计数(不同)
在获取 Distinct 的 Count 时，我在使用 Group By With Rollup 时遇到了一个小问题。问题是 Rollup 摘要只是所有分组中 Distinct 值的总数，而不是所有
sql - 如何对多列进行计数(不同)
这不起作用: select count(distinct colA, colB) from mytable 我知道我可以通过双选来简单地解决这个问题。 select count(*) from (
javascript - 为什么在比较时与 ""不同
这个问题在这里已经有了答案: JavaScript regex whitespace characters (5 个回答) 2年前关闭。你能解释一下为什么我会得到 false比较 text ===
javascript - [] 与 [] 不同
这个问题已经有答案了: 奥 git _a (56 个回答) 已关闭 9 年前。我被要求用 Javascript 编写一个函数 sortByFoo 来正确响应此测试: // Does not cras
sql - 在按单个列上的多个值进行内部联接查询过滤时选择“不同”？
所以，我不得不说，SQL 是迄今为止我作为开发人员最薄弱的一面。也许我想要完成的事情很简单。我有这样的东西(这不是真正的模型，但为了使其易于理解而不浪费太多时间解释它，我想出了一个完全模仿我必须使用的
javascript - 为什么在通过引用传递后调用函数时对象内部的 "this"不同？
这个问题在这里已经有了答案: How does the "this" keyword work? (22 个回答) 3年前关闭。简而言之:为什么在使用 Objects 时，直接调用的函数和通过引用传
C++ 不同 -> 和 "."
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: what is the difference between (.) dot operator and (-
c++ - for 循环给出的结果与 += 不同
我真的不明白这里发生了什么但是: 当我这样做时: colorIndex += len - stopPos; for(int m = 0; m < len - stopPos; m++) { c
MySQL 按顺序和计数分组(不同)
思考 MySQL 中的 Group By 函数的最佳方式是什么？我正在编写一个 MySQL 查询，通过 ODBC 连接在 Excel 的数据透视表中提取数据，以便用户可以轻松访问数据。例如，我有:
mysql - 如何在组内选择具有条件的计数(不同)
我想要的SQL是这样的: SELECT week_no, type, SELECT count(distinct user_id) FROM group WHERE pts > 0 FROM bas
php - 不同/连接两个表
商店表: +--+-------+--------+ |id|name |date | +--+-------+--------+ |1 |x |Ma
javascript - offsetParent 不同
对于 chrome 和 ff，当涉及到可怕的 ie 时，这个脚本工作完美。有问题 function getY(oElement) { var curtop = 0; if (oElem
c - 不同.c文件之间的IPC进程间通信
我现在无法提供代码，因为我目前正在脑海中研究这个想法并在互联网上四处乱逛。我了解了进程间通信和使用共享内存在进程之间共享数据(特别是结构)。但是，在对保存在不同 .c 文件中的程序使用 fork(
c - C编程中的MongoDB聚合函数(不同)
我想在用户集合中使用不同的功能。在 mongo shell 中，我可以像下面这样使用: db.users.distinct("name"); 其中名称是用于区分的集合字段。同样我想要，在 C
c# - linq选择问题(不同)
List nastava_izvjestaj = new List(); var data_context = new DataEvidencijaDataContext();
生产中的 CSS 不同
我的 Rails 应用程序中有 Ransack 搜索和 Foundation，本地 css 渲染正常，而生产中的同一个应用程序有一个怪癖: 应用程序中的其他内容完全相同。我在 Chrome 和 Sa

首页

博学

6Ren·AI

商城

ruby-on-rails - 按日期和 created_at 排序的多列索引对不同的查询表现出奇怪的行为