performance - 改进 PostgreSQL 中小数据文本搜索的好处和权衡-6ren

performance - 改进 PostgreSQL 中小数据文本搜索的好处和权衡

转载作者：行者123 更新时间：2023-11-29 14:11:46

25

4

我有 4 个感兴趣的文本列。
每列最多约 100 个字符。
其中 3 列中的文本主要是拉丁词。 (数据是生物目录，这些是事物的名称。)
数据目前约为 500 行。我预计这不会超过 1000。
少数用户(10 岁以下)将拥有添加、更新和删除数据的编辑权限。我不希望这些用户给数据库带来沉重的负担。

因此，所有这些都表明需要考虑一个非常小的数据集。

我需要在所有 4 列中搜索至少 1 列包含搜索文本(不区分大小写)的行。将通过 Web 应用程序发出查询(并提供结果)。我对如何处理它有点迷茫。

PostgreSQL 提供了一些选项来提高文本搜索速度。我一直在考虑的内置于 PostgreSQL 中的可能选项是

根本不要尝试将其编入索引。只需在 lower 上使用 ILIKE、LIKE 或类似的。 (没有索引？)
使用 pg_trgm 建立索引以提高搜索速度。我假设我需要以某种方式索引连接。
全文搜索。我假设这也涉及连接索引。

不幸的是，我并不真正熟悉其中任何一个的预期性能或 yield 和权衡，因此很难知道我应该首先尝试哪些事情以及我什至不应该考虑哪些事情。我读过的一些内容表明，为 2 和 3 编制索引非常慢，这与我偶尔会进行修改的事实相冲突。混合语言使全文搜索看起来没有吸引力，因为它似乎是基于语言的，除非它可以同时处理多种语言。我是否期望对于这么小的数据，一个简单的 ILIKE 或 lower 上的一个 LIKE 可能足够快？或者也许索引对于这么小的数据修改的低负载足够快？在数据库之外寻找一些东西会更好吗？

当然，我必须实际对所有这些进行基准测试才能真正确定什么是最快的，但不幸的是，我没有太多时间来完成这个项目。那么这些方法的好处和权衡是什么？这些选项中有哪些不适合解决此类问题？还有哪些其他类型的解决方案(包括可能在数据库之外的)值得考虑？

(我想我可能会发现一些关于在 PG 中进行文本搜索的初学者教程很有用，但我的搜索大部分都是全文搜索，我什至不知道它是否对我有用。)

我使用的是 PG 9.2.4，所以 9.3 之前的任何好东西都是一个选项。

最佳答案

更新:我已将此答案扩展为 a detailed blog post .

与其纯粹关注速度，不如先考虑搜索语义。定义您的要求。

例如，用户是否需要能够根据术语的顺序进行区分？应该

radiata pinus

查找:

pinus radiata

?相同的规则是否适用于列内和列之间的词？

空格始终是单词分隔符，还是搜索词列中的空格？

你需要通配符吗？如果是这样，您是只需要左 anchor 通配符(想想 staph%)还是还需要右 anchor 通配符或中缀通配符(%ccus，p% s)?只有 pg_tgrm 可以帮助您处理中缀通配符。后缀通配符可以通过单词的 reverse() 上的索引来处理，但这很快就会变得笨拙，因此在实践中 pg_tgrm 是最好的选择。

如果您主要搜索离散词并且词序不重要，那么 Pg 使用 to_tsvector 和 to_tsquery 进行全文搜索将是可取的。它支持左 anchor 通配符搜索、加权、类别等。

如果您主要对离散列进行前缀搜索，那么可以对每列的常规 B 树索引进行简单的 LIKE 查询。

所以。弄清楚您需要什么，然后如何去做。您当前的不确定性可能部分源于您不太清楚自己想要什么。

关于performance - 改进 PostgreSQL 中小数据文本搜索的好处和权衡，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18438996/

25

4

0

文章推荐： PostgreSQL - 查询 hstore - 列不存在

文章推荐： php - MySQL 双日期转换时遇到问题

文章推荐： php - 从mysql中选择唯一记录，仅考虑一个字段

检查不良做法/改进
我对编码还比较陌生，但并非完全没有经验。处理有关金融计算器的学校作业。如果你们中的任何人可以查看我的代码以了解不良做法/可能的改进等，那就太好了。我确实添加了一个“动画”启动(有很多 printf
小目标检测改进拆分拼接
小目标Trick 论文链接： https://paperswithcode.com/paper/slicing-aided-hyper-inference-and-fine-tuning 代码链接：h
javascript - 改进 if 语句链
if (firstPositionCpc && (firstPosition > 0 && firstPositionCpc 0 && topOfPageCpc 0 && firstPageCpc
SQL 改进 - UNION？
我有 2 个表:“packages”和“items”。 “packages”有以下列:pack_id | item_id “items”有以下列......:item_id |输入一个包可以有多个
python - Pandas 改进
我目前有一个 Pandas Dataframe，我在其中执行列之间的比较。我发现一种情况，在进行比较时存在空列，由于某种原因比较返回 else 值。我添加了一个额外的语句来将其清理为空。看看我是否可以
具有四舍五入的主日期时间键的 MySQL 改进
我正在处理一个查询，通过首先舍入它们的主要日期时间键来连接一个数据库中的多个表。数据库包含来自 openhab 的性能数据，每个表只有一个名为 Time 的主日期时间行和一个名为 Value 的值行。
即发即弃的 C# 改进
问候我有一个程序创建一个类的多个实例，在所有实例上运行相同的长时间运行的 Update 方法并等待完成。我从 this question 开始关注 Kev 的方法将更新添加到 ThreadPool.
c - 对我的简单二十一点程序的建议/改进
我想在下学期的类(class)中取得领先，所以我制作了这个基本版本的 Blackjack 来开始理解 C 的基础知识，我希望您有任何想法可以帮助我更好地理解 C 和其正常的编码实践。 C 中的很多东西
javascript - 需要更好的解决方案/改进
我有一个要求，比如: 给定一个数组，其中包含随机数。需要输出元素出现的次数，有自带解决方案: var myArr = [3,2,1,2,3,1,4,5,4,6,7,7,9,1,123,0,123];
sql - min() 改进
这是我的数据库项目。表user_ select id, name from user_; id | name ----+---------- 1 | bartek 2 | bartek
bash - 改进 for 循环的执行
我已经完成了一个小批量脚本来调整(动态)一些图像的大小: for a in *.{png,PNG,jpg,JPG,jpeg,JPEG,bmp,BMP} ; do convert "$a" -resiz
列表理解中函数的 Pythonic 改进？
是否有更 pythonic 的方法来执行以下代码？我想在一行中完成 parsed_rows 是一个可以返回大小为 3 或 None 的元组的函数。 parsed_rows = [ parse_row(
选项转换器的 Javascript 改进
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 9 年前。 Improv
python - 列表到字典 - 改进？
下面的代码完成了我想要的，但还有其他更像 python 风格的方式吗？文件格式: key1:value1,key2:value2,... key21:value21,key22:value22,..
java - 检查字符串中是否存在字符集 - 改进
如果两个英文单词只包含相同的字母，则它们是相似的。例如，food 和 good 不相似，但 dog 和 good 相似。 (如果A与B相似，则A中的所有字母都包含在B中，B中的所有字母都包含在A中。)
c - 强平衡树 - 改进
我有以下结构来表示二叉树: typedef struct node *pnode; typedef struct node { int val; pnode left; pnode
algorithm - 改进 a* 搜索以在三角环境中寻找路径
我有一个区域，它由受约束的 delaunay 三角剖分表示。我正在解决在两点之间寻找路径的问题。我正在使用 Marcelo Kallmann 提供的论文作为解决此问题的引用点。然而，而不是使用 Kal
java - 使用正则表达式的性能开销/改进
如果我需要检查文本(字符串)中是否存在单词 A 或单词 B，如果我这样做会有性能差异: if(text.contains(wordA) || text.contains(wordB)) 要使用一些正则
xml - Xpath 改进
Adjust To 我有上面这个简单的页面，上面有一个标签和一个文本框。我想在文本框中输入文本。对我有帮助的 XPATH 是 //*[contains(tex
elisp - 改进 Elisp 条件表达式
以下伪代码的elisp代码 if "the emacs version is less than 23.1.x" do something else something-else 写成 (if

首页

博学

6Ren·AI

商城

performance - 改进 PostgreSQL 中小数据文本搜索的好处和权衡