sql - 使用 PostgreSQL 定位流行的字符串-6ren

sql - 使用 PostgreSQL 定位流行的字符串

转载作者：行者123 更新时间：2023-11-29 12:09:44

25

4

我在 PostgreSQL 表中有一堆文本行，我正在尝试查找常见的字符串。

例如，假设我有一个基本表:

CREATE TABLE a (id serial, value text);
INSERT INTO a (value) VALUES
    ('I go to the movie theater'), 
    ('New movie theater releases'), 
    ('Coming out this week at your local movie theater'),
    ('New exposition about learning disabilities at the children museum'),
    ('The genius found in learning disabilities')
;

我试图在所有行中找到流行的字符串，如 movie theater 和 learning disabilities(目标是显示“趋势”字符串列表推特“趋势”)

我使用全文搜索，并尝试将 ts_stat 与 ts_headline 结合使用，但结果非常令人失望。

有什么想法吗？谢谢!

最佳答案

没有现成可用的 Posgres 文本搜索功能来查找最流行的短语。对于双词短语，您可以使用 ts_stat() 找到最流行的词，消除粒子、介词等，并交叉连接这些词以找到最流行的词对。

对于实际数据，您可能希望更改标记为 --> 参数的值。 在较大的数据集上查询可能会非常昂贵。

with popular_words as (
    select word
    from ts_stat('select value::tsvector from a')
    where nentry > 1                                --> parameter
    and not word in ('to', 'the', 'at', 'in', 'a')  --> parameter
)
select concat_ws(' ', a1.word, a2.word) phrase, count(*) 
from popular_words as a1
cross join popular_words as a2
cross join a
where value ilike format('%%%s %s%%', a1.word, a2.word)
group by 1
having count(*) > 1                                 --> parameter
order by 2 desc;


        phrase         | count 
-----------------------+-------
 movie theater         |     3
 learning disabilities |     2
(2 rows)

关于sql - 使用 PostgreSQL 定位流行的字符串，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42702888/

25

4

0

文章推荐： sql - Postgresql 之间的最小值最大值在哪里

文章推荐： iOS，用程序化的 : IBNSLayoutConstraint issue 替换导出约束

文章推荐： sql - Postgres : find all integer columns with its current max value in it

文章推荐： postgresql - 在 phraseto_tsquery 中添加多个短语

java - 流行/标准 Java 库中是否有一个用于延迟计算值的类？
我想知道是否有一个“标准”类(JDK、Guava、Apache *)可以帮助延迟初始化/计算模式？我正在考虑这样的事情(现在让我们忽略同步): abstract class Lazy { T i
xml - 为什么 XSL-FO 流行？
我要创建一个从 html 到某种格式的转换器。我正在考虑使用中间格式 XML(XSL-FO)。我的问题:如果没有那么多应用程序渲染它，为什么 FO 格式很受欢迎？最佳答案我很清楚 CSS 和 X
uml - 为什么 IDEF 不流行而 UML 流行？
我发现了 IDEF就在昨天，我立即想知道为什么它不比 UML 更流行。从documents来看，IDEF 至少与 UML 一样适用于软件建模，但与 UML 相比，它已经成熟和稳定了大约 30 年。这
frameworks - 流行 Web 框架(例如 TodoMVC)的学习应用程序
首先，对于版主来说，如果这不是发布此内容的正确位置，请不要生气:)。我想知道是否有类似 TodoMVC 的东西适用于 Django、Rails、Symfony 等流行的 Web 框架。如果没有这样
iphone - ViewControler 内的导航(豪华/流行)存在于 UIScrollView 中
在我的应用程序中，我有一个 UIScrollView，其中包含 N 个可以向左或向右滑动的 ViewController 在每个 Controller 中，我希望能够推送新的 viewControll

首页

博学

6Ren·AI

商城

sql - 使用 PostgreSQL 定位流行的字符串