postgresql - 加快通配 rune 本查找-6ren

postgresql - 加快通配 rune 本查找

转载作者：行者123 更新时间：2023-11-29 11:16:21

26

4

我在 Postgres 中有一个简单的表，其中有超过 800 万行。感兴趣的列包含短文本字符串，通常是一个或多个单词，总长度小于 100 个字符。它被设置为“字符变化(100)”。该列已编入索引。如下所示的简单查找需要 > 3000 毫秒。

SELECT a, b, c FROM t WHERE a LIKE '?%'

是的，现在，需要简单地找到“a”以输入的文本开头的行。我想将查找速度降低到 100 毫秒以下(瞬时外观)。建议？在我看来，全文搜索在这里无济于事，因为我的文本栏太短了，但如果值得的话，我很乐意尝试。

哦，顺便说一句，我还在 mongodb 和索引列“a”中加载了完全相同的数据。在 mongodb 中加载数据非常快 (mongodb++)。在进行精确查找时，mongodb 和 Postgres 几乎都是瞬时的。但是，Postgres 在进行上述尾随通配符搜索时实际上表现出色，始终只需要 mongodb 的 1/3 左右。如果我可以加快速度，我会很乐意追求 mongodb，因为这只是一个只读操作。

更新:首先，一些EXPLAIN ANALYZE输出

EXPLAIN ANALYZE SELECT a, b, c FROM t WHERE a LIKE 'abcd%'

"Seq Scan on t  (cost=0.00..282075.55 rows=802 width=40) 
    (actual time=1220.132..1220.132 rows=0 loops=1)"
"  Filter: ((a)::text ~~ 'abcd%'::text)"
"Total runtime: 1220.153 ms"

我实际上想将 Lower(a) 与总是至少 4 个字符长的搜索词进行比较，所以

EXPLAIN ANALYZE SELECT a, b, c FROM t WHERE Lower(a) LIKE 'abcd%'

"Seq Scan on t  (cost=0.00..302680.04 rows=40612 width=40) 
    (actual time=4.681..3321.387 rows=788 loops=1)"
"  Filter: (lower((a)::text) ~~ 'abcd%'::text)"
"Total runtime: 3321.504 ms"

所以我创建了一个索引

CREATE INDEX idx_t ON t USING btree (Lower(Substring(a, 1, 4) ));

"Seq Scan on t  (cost=0.00..302680.04 rows=40612 width=40) 
    (actual time=3243.841..3243.841 rows=0 loops=1)"
"  Filter: (lower((a)::text) = 'abcd%'::text)"
"Total runtime: 3243.860 ms"

似乎唯一一次使用索引是在我寻找完全匹配的时候

EXPLAIN ANALYZE SELECT a, b, c FROM t WHERE a = 'abcd'

"Index Scan using idx_t on geonames  (cost=0.00..57.89 rows=13 width=40) 
    (actual time=40.831..40.923 rows=17 loops=1)"
"  Index Cond: ((ascii_name)::text = 'Abcd'::text)"
"Total runtime: 40.940 ms"

通过使用 varchar_pattern_ops 和 am now looking for an even quicker lookups 实现索引找到了解决方案.

最佳答案

PostgreSQL 查询规划器很聪明，但不是人工智能。要使其在表达式上使用索引，请在查询中使用完全相同的表达式。

使用这样的索引:

CREATE INDEX t_a_lower_idx ON t (lower(substring(a, 1, 4)));

或在 PostgreSQL 9.1 中更简单:

CREATE INDEX t_a_lower_idx ON t (lower(left(a, 4)));

使用这个查询:

SELECT * FROM t WHERE lower(left(a, 4)) = 'abcd';

在功能上 100% 等同于:

SELECT * FROM t WHERE lower(a) LIKE 'abcd%'

或者:

SELECT * FROM t WHERE a ILIKE 'abcd%'

但不是:

SELECT * FROM t WHERE a LIKE 'abcd%'

这是一个功能不同的查询，您需要一个不同的索引:

CREATE INDEX t_a_idx ON t (substring(a, 1, 4));

或使用 PostgreSQL 9.1 更简单:

CREATE INDEX t_a_idx ON t (left(a, 4));

并使用这个查询:

SELECT * FROM t WHERE left(a, 4) = 'abcd';

可变长度的左锚定搜索词

不区分大小写。索引:

编辑:差点忘了:如果您使用默认“C”以外的任何其他语言环境运行您的数据库，则需要 specify the operator class explicitly - text_pattern_ops在我的例子中:

CREATE INDEX t_a_lower_idx
ON t (lower(left(a, <insert_max_length>)) text_pattern_ops);

查询:

SELECT * FROM t WHERE lower(left(a, <insert_max_length>)) ~~ 'abcdef%';

可以利用索引并且几乎与固定长度的变体一样快。

您可能对此感兴趣 post on dba.SE with more details about pattern matching ，尤其是关于运算符的最后一部分 ~>=~和 ~<~ .

关于postgresql - 加快通配 rune 本查找，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9213816/

26

4

0

文章推荐： iphone - iOS:Facebook 发布隐私

文章推荐： sql - 递归 SQL 语句(PostgreSQL 9.1.4)

ffmpeg - 加快/减慢视频ffmpeg
我想使用 ffmpeg 框架更改视频速度。我为此使用了这个命令: ffmpeg -y -i /storage/extSdCard/Video/1.avi -filter_complex [0:v]fp
python - 加快 while 循环匹配数组中的模式
我有以下数据数组，有 200 万个条目: [20965 1239 296 231 -1 -1 20976 1239 299 314 147 337 255
database - 加快 sqlFetch()
我正在使用 Oracle 数据库，并且想获取一个包含 3000 万条记录的表。 library(RODBC) ch <- odbcConnect("test", uid="test_user",
android - 加快 FFmpeg 处理时间
我在 android 上使用 FFmpeg 来: 1- 合并 3 个视频 2-添加音频 3-添加标志 4-修剪 3 个视频之一 5-改变输出的fps 我已经实现了正确的代码，但花了 30 分钟。对于(
julia - 加快 Julia 中的包加载速度
我使用 GLPKMathProgInterface 和 JuMP 编写了一个程序来解决 Julia 中的线性程序。 Julia 代码由 python 程序调用，该程序通过多个命令行调用运行多个 Jui
performance - 加快 POVRAY 图像创建的示例配置
我们使用 POV-Ray 每次运行生成大约 80 张图像，我们将这些图像拼接在一起形成两个移动的 GIF 文件(一个场景的两个 360 度 View )。我们正在寻找尽可能加快此镜像创建的方法(在 h
iphone - 加快 iPhone 开发速度的最快途径
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
sql - 加快 Python 执行速度
我将数据从一个数据库插入到另一个数据库，所以我有 2 个连接(Conn1 和 Conn2)。下面是代码(使用pypyodbc)。 import pypyodbc Conn1_Query = "SE
iphone - 加快 EKEvents 的获取速度
在我的应用程序中，我显示 EKEvents 列表，我想在 UITableView 中显示一个月的所有事件，每个部分包含各自的日期。嗯，这可行，我得到了我需要的所有数据，但获取速度非常慢。问题在于事件
javascript - 加快 WordPress 网站上的轮播速度
我有一个移动速度非常慢的传送带。我不知道什么JS脚本控制速度，我需要它来加速。无法从主题制作者那里获得任何帮助。任何建议都会非常有帮助。谢谢页面: http://krankgolf2017.wpen
vba - 加快 VBA 速度吗？
有没有办法加快这段代码的速度？我需要它来删除相同的内容并将其写入单元格，以强制其他 VBA 代码运行另一列上的代码。这就是它的作用，只是 super 慢。有时此表上有 2000 个条目/行。每个单元大
python - 加快 openpyxl 读取速度
我正在开发一个相当大的程序，它再次从一个相当大的 Excel 电子表格中获取数据。由于一些奇怪的原因，加载这个大的 Excel 文件需要很长时间，我希望能以某种方式加快速度。我做了自己的研究并尝试了
vba - 加快 VBA 中按钮格式化的速度
我有下面的代码，将所有按钮(有 10 个)着色为灰色，以清除任何先前着色的按钮，然后将所选按钮着色为蓝色。基本上充当当前选择哪个按钮的指示器。我注意到代码现在需要一些时间才能通过这种修饰添加来运行，我
.net - 加快 LINQ 查询速度的技巧？
我有一个 LINQ 查询，它正在搜索包含大约 250,000 条记录的 SQL 表，并且仅搜索 2 个字段。这两个字段都已建立索引，但我发现它的运行速度仍然相当慢。下面是代码，有人可以提出任何建议来
python - 加快 Pandas 应用功能
对于相对较大的 Pandas DataFrame(几十万行)，我想创建一个应用函数结果的系列。问题是该功能不是很快，我希望它能以某种方式加快速度。 df = pd.DataFrame({ 'valu
r - 加快 R 中的概率加权采样
这个问题在这里已经有了答案: Faster weighted sampling without replacement (3 个答案) 关闭 9 年前。如何在 R 中加快概率加权采样。 # Let
phantomjs - 加快 phantomjs 屏幕捕获时间？
在运行 PhantomJS 提供的 rasterize.js 示例时，我发现我必须等待 20 秒或更长时间才能生成网页图像。有没有可能在不消耗大量资源的情况下加快速度的方法？我基本上希望快速生成从加
python - 加快 openpyxl 读取速度
我正在开发一个相当大的程序，它再次从一个相当大的 Excel 电子表格中获取数据。由于一些奇怪的原因，加载这个大的 Excel 文件需要很长时间，我希望能以某种方式加快速度。我做了自己的研究并尝试了
vba - 加快 VBA 中按钮格式化的速度
我有下面的代码，将所有按钮(有 10 个)着色为灰色，以清除任何先前着色的按钮，然后将所选按钮着色为蓝色。基本上充当当前选择哪个按钮的指示器。我注意到代码现在需要一些时间才能通过这种修饰添加来运行，我
vba - 加快 VBA 代码运行速度
我有一个 Excel 工作簿，用户通过单击按钮导入文本文件。我的代码完全按照我的需要工作，但是在填写 H 列“阅读日期”时速度非常慢。将文本文件导入 Excel 工作表后，我的 Excel 工作簿如下

首页

博学

6Ren·AI

商城

postgresql - 加快通配 rune 本查找

可变长度的左锚定搜索词