- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个包含 A 列的表 1,其中存储了大约 100,000 个字符串 (varchar)。不幸的是,每个字符串都有多个用空格分隔的单词。此外,它们具有不同的长度,即一个字符串可以包含 3 个单词,而另一个字符串包含 7 个单词。
然后我将 B 列存储在第二个 table2 中,该表以相同的方式仅包含 100 个字符串。因此,每个字符串有多个单词,用空格分隔。
目标是,根据单词查看 B 列的一条记录与 A 列的可能多条记录匹配的可能性有多大。结果也应该有排名。我正在考虑在循环中使用全文搜索,但我不知道该怎么做,或者是否有适当的方法来实现这一点?
最佳答案
我不知道你是否可以将表格“tturn”成字典以使用全文在此处进行排名。但是您可以很容易地使用一些原始排名来查询它,例如:
t=# with a(a) as (values('a b c'),('a c d'),('b e f'),('r b t'),('q w'))
, b(i,b) as (values(1,'a b'), (2,'e'), (3,'b'))
, p as (select unnest(string_to_array(b.b,' ')) arr,i from b)
select a phrases,arr match_words,count(1) over (partition by arr) words_in_matches, count(1) over (partition by i) matches,i from a left join p on a.a like '%'||arr||'%';
phrases | match_words | words_in_matches | matches | i
---------+-------------+------------------+---------+---
r b t | b | 6 | 5 | 1
a b c | b | 6 | 5 | 1
b e f | b | 6 | 5 | 1
a b c | a | 2 | 5 | 1
a c d | a | 2 | 5 | 1
b e f | e | 1 | 1 | 2
r b t | b | 6 | 3 | 3
a b c | b | 6 | 3 | 3
b e f | b | 6 | 3 | 3
q w | | 1 | 1 |
(10 rows)
因此您可以按第三列或第四列排序以获得某种排名...
关于postgresql 查找相似词组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46900121/
我想用 Java 编写一个正则表达式来匹配一个单词字符和空格序列,然后是一个单词字符和空格序列的“子类”字符序列: 应该匹配的示例字符串: a subclass of b a and b subcla
考虑到我们有以下输入数据表。 import pandas as pd #Pandas settings to see all the data when printing pd.set_option(
我们如何在同义词集中找到单词短语?特别是,将此同义词集用于形容词“booked”: booked, engaged, set-aside -- (reserved in advance) 我用的是Ri
我是一名优秀的程序员,十分优秀!