- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在 PostgreSQL 表中有一堆文本行,我正在尝试查找常见的字符串。
例如,假设我有一个基本表:
CREATE TABLE a (id serial, value text);
INSERT INTO a (value) VALUES
('I go to the movie theater'),
('New movie theater releases'),
('Coming out this week at your local movie theater'),
('New exposition about learning disabilities at the children museum'),
('The genius found in learning disabilities')
;
我试图在所有行中找到流行的字符串,如 movie theater
和 learning disabilities
(目标是显示“趋势”字符串列表推特“趋势”)
我使用全文搜索,并尝试将 ts_stat
与 ts_headline
结合使用,但结果非常令人失望。
有什么想法吗?谢谢!
最佳答案
没有现成可用的 Posgres 文本搜索功能来查找最流行的短语。对于双词短语,您可以使用 ts_stat()
找到最流行的词,消除粒子、介词等,并交叉连接这些词以找到最流行的词对。
对于实际数据,您可能希望更改标记为 --> 参数的值。
在较大的数据集上查询可能会非常昂贵。
with popular_words as (
select word
from ts_stat('select value::tsvector from a')
where nentry > 1 --> parameter
and not word in ('to', 'the', 'at', 'in', 'a') --> parameter
)
select concat_ws(' ', a1.word, a2.word) phrase, count(*)
from popular_words as a1
cross join popular_words as a2
cross join a
where value ilike format('%%%s %s%%', a1.word, a2.word)
group by 1
having count(*) > 1 --> parameter
order by 2 desc;
phrase | count
-----------------------+-------
movie theater | 3
learning disabilities | 2
(2 rows)
关于sql - 使用 PostgreSQL 定位流行的字符串,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42702888/
我想知道是否有一个“标准”类(JDK、Guava、Apache *)可以帮助延迟初始化/计算模式? 我正在考虑这样的事情(现在让我们忽略同步): abstract class Lazy { T i
我要创建一个从 html 到某种格式的转换器。我正在考虑使用中间格式 XML(XSL-FO)。 我的问题:如果没有那么多应用程序渲染它,为什么 FO 格式很受欢迎? 最佳答案 我很清楚 CSS 和 X
我发现了 IDEF就在昨天,我立即想知道为什么它不比 UML 更流行。从documents来看,IDEF 至少与 UML 一样适用于软件建模,但与 UML 相比,它已经成熟和稳定了大约 30 年。 这
首先,对于版主来说,如果这不是发布此内容的正确位置,请不要生气:)。 我想知道是否有类似 TodoMVC 的东西适用于 Django、Rails、Symfony 等流行的 Web 框架。 如果没有这样
在我的应用程序中,我有一个 UIScrollView,其中包含 N 个可以向左或向右滑动的 ViewController 在每个 Controller 中,我希望能够推送新的 viewControll
我是一名优秀的程序员,十分优秀!