- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我面临着编写更智能/高级的“相关内容”算法的挑战,并且不知道从哪里开始,所以我决定提出一个问题,是否有人会指出我正确的方向。
我们的数据库包含很多文章,到目前为止,我们使用关键字/标签查询了相关文章,但发现通常我们不会获得非常相关的结果,因为大多数关键字过于笼统(例如政府,税收等)。
一个很大的想法是,我们将以某种方式查询整个内容,并尝试匹配与当前显示的主题最相关的内容。但是同时,算法还应该“知道”匹配的内容是否具有负面含义。
例如,让我们看一下3条虚构的文章:
一篇文章说,如果您通过互联网预订机票,如何可以便宜机票
一篇文章说机票价格由于...下降。
一篇文章说,有300多人在飞机失事中丧生
在这种情况下,所有三篇文章(全部内容)都与飞行和飞机有关,但第三篇文章具有负面含义。因此,前两个应相互关联,但第三个不应以任何方式与前两个相关。
所以我的问题是-如何在拥有超过一百万篇文章的数据库中以编程方式完成类似的工作?我知道这不能仅通过SQL查询来完成-您将以某种方式需要字典或其他内容,但是我不知道从哪里开始探索该主题。所以,请问有人能指出我正确的方向吗?
最佳答案
TL,DR
在Wiki上查看有关TF*IDF的信息,然后查看有关Cosine similarity的信息。
长答案(带有示例)
什么是TF * IDF
TF * IDF代表术语频率*反文档频率。
这是为大型群组中的文档创建良好标签的方法之一。
其背后的思想是摘录单个文档中用什么词来描述同一文档。
为此,它使用两种不同的统计数据,第一种是术语频率。
术语频率是一个单词在单个文档或句子中的重要性的指示。
例如句子
SQL Post. Asking about semantic in SQL with generic document example, SQL generic
Word | Count | Frequency
----------------------------
SQL | 3 | 0.231
generic | 2 | 0.154
Post | 1 | 0.077
Asking | 1 | 0.077
semantic | 1 | 0.077
document | 1 | 0.077
example | 1 | 0.077
IDF = ln(Document count / Document with the word)
SQL Post. Asking about semantic in SQL with generic document example, SQL generic
C# Post. This is a C# answer with an example
SQL Post. Asking a good SQL question with an example
Math Post. This is a Math answer with an example of equation
IDF = ln(4/4) -> ln(1) -> 0
IDF = ln(4/1) -> ln(4) -> 1.386 for "question"
IDF = ln(4/2) -> ln(2) -> 0.693 for "answer"
Word | Frequency| IDF | TF*IDF
-------------------------------------
SQL | 0.231 | 0.693 | 0.160
generic | 0.154 | 1.386 | 0.213
Post | 0.077 | 0 | 0
Asking | 0.077 | 0.693 | 0.053
semantic | 0.077 | 1.386 | 0.107
document | 0.077 | 1.386 | 0.107
example | 0.077 | 0 | 0
sim = (A*B)/(||A||*||B||)
sim = Sum(A[word] * B[word])/(Sqrt(Sum(A[word]^2)) * Sqrt(Sum(B[word]^2)))
sim = cross_product/(norm(A) * norm(B))
cross_product = Sum(A[word] * B[word])
norm(X) = Sqrt(Sum(X[word]^2))
Word | Frequency| IDF | TF*IDF
-------------------------------------
SQL | 0.2 | 0.693 | 0.139
Asking | 0.1 | 0.693 | 0.069
good | 0.1 | 1.386 | 0.139
question | 0.1 | 1.386 | 0.139
cross_product = 0.160*0.053 (SQL) + 0.023*0.069 (Asking) = 0,02587
norm(1) = sqrt(0.160^2 + 0.213^2 + 0.053^2 + 0.107^2 + 0.107^2) = 0.31090
norm(3) = sqrt(0.139^2 + 0.069^2 + 0.139^2 + 0.139^2) = 0.24992
sim = cross_product/(norm(1) * norm(3)) = 0.333
SELECT 1 AS Id, N'SQL Post. Asking about semantic in SQL with generic document'
+ N' example, SQL generic' AS txt
INTO #testTable
UNION ALL SELECT 2, N'C# Post. This is a C# answer with an example'
UNION ALL SELECT 3, N'SQL Post. Asking a good SQL question with an example'
UNION ALL SELECT 4, N'Math Post. This is a Math answer with an example of'
+ N' equation'
With TF AS (
SELECT DISTINCT id, display_term, special_term
, CAST(COUNT(display_term)
OVER (PARTITION BY id, display_term) AS DECIMAL(10, 8))
/ COUNT(occurrence) OVER (PARTITION BY id) TF
FROM #testTable
CROSS APPLY sys.dm_fts_parser('"'+REPLACE(txt,'"','""')+'"', 1033, 0,0)
WHERE TXT IS NOT NULL
AND display_term NOT LIKE 'nn%'
AND special_term <> 'End Of Sentence'
), IDF AS (
SELECT display_term word
, sentences = COUNT(DISTINCT tt.ID)
, sentence_with_word
= COUNT(DISTINCT CASE WHEN tt.txt LIKE '%' + tf.display_term + '%'
THEN tt.id
ELSE NULL
END)
, IDF = LOG(CAST(COUNT(DISTINCT tt.ID) AS DECIMAL (10, 8))
/ COUNT(DISTINCT CASE WHEN tt.txt LIKE '%' + tf.display_term + '%'
THEN tt.id
ELSE NULL
END))
FROM #testTable tt
CROSS JOIN TF
WHERE TF.special_term = 'Exact Match'
group by display_term
)
SELECT tf.Id sentence, word
, TD = TF.TF, IDF.IDF
, TD_IDF = TF.TF * IDF.IDF
INTO #sentence_word_TD_IDF
FROM TF
INNER JOIN IDF ON tf.display_term = IDF.word
WITH S1 AS (
SELECT word, TD_IDF
FROM #sentence_word_TD_IDF
WHERE sentence = 1
), S2 AS (
SELECT word, TD_IDF
FROM #sentence_word_TD_IDF
WHERE sentence = 3
), cat AS (
SELECT word = COALESCE(S1.word, S2.word)
, word_S1_TD_IDF = COALESCE(S1.TD_IDF, 0)
, word_S2_TD_IDF = COALESCE(S2.TD_IDF, 0)
FROM S1
FULL JOIN S2 ON S1.word = S2.word
)
SELECT cross_product = SUM(word_S1_TD_IDF * word_S2_TD_IDF)
, norm_1 = SQRT(SUM(word_S1_TD_IDF * word_S1_TD_IDF))
, norm_2 = SQRT(SUM(word_S2_TD_IDF * word_S2_TD_IDF))
, co_sim = SUM(word_S1_TD_IDF * word_S2_TD_IDF)
/ (SQRT(SUM(word_S1_TD_IDF * word_S1_TD_IDF))
* SQRT(SUM(word_S2_TD_IDF * word_S2_TD_IDF)))
FROM cat
CTE
IDF中,存在“句子”和“ sentence_with_word”列,而不仅仅是IDF。
SQRT(TD_IDF ^ 2)
将为正,无论TD_IDF的性质如何。
关于sql - 获取相关文章的高级方法(语义),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23237886/
对于相当简单的表结构,即。人员、标准和 PersonCriteria(组合表),我现在设置了一个查询,选择所有符合所有选定条件的人。 此时查询本身看起来像这样: SELECT p.PersonID
我在使用高级 SQL 查询时遇到了一些问题,而且我已经有很长时间没有使用 SQL 数据库了。我们使用 MySQL。 背景: 我们将使用两个表: “交易表” 表:expire_history +----
我找不到错误。也许你可以帮助我:我的代码如下: var data = {"product":[{"config":[{"id":"1","price":"100","sku":"1054879634
我有一个列表列表的列表(最后一个列表并不重要) data = [[[['f', 0], 'C'], [['X', 0], 'X']], [[['s', 1], 'X'], [['X', 0], 'X'
我想准备将使用表格的 session ,并在另一个网站上将新项目添加到 session 中。 默认.cs string[] tab = new string[100];
我知道有一些像: Bubble sort Insertion sort Shell sort Merge sort Heapsort Quicksort Bucket sort Radix sort
像https://softwareengineering.stackexchange.com/questions/150616/return-random-list-item-by-its-weigh
我正在开发一个 posix 脚本 (Linux),它获取一个网页,将内容存储在一个变量中并查找字符串“SUCCESS”。如果找到字符串,则不执行循环内容,如果没有找到字符串,则反复执行循环,直到找到为
我不确定这个问题是否已在其他地方得到解答,而且我似乎无法通过谷歌找到任何不是“Hello World”示例的内容...我正在使用 C# .NET 4.0 进行编码。 我正在尝试开发一个控制台应用程序,
我创建了一个房地产网站,我希望按照列表的最后更新和完整性对列表进行排序。所以我一直想弄清楚如何结合最近更新的列表按mysql中的字段(completion_score)进行排序。完成分数将采用 1
只所以称为“高级”用法,是因为我连switch的最基础的用法都还没有掌握,so,接下来讲的其实还是它的基础用法! switch 语句和具有同样表达式的一系列的 IF 语句相似。很多场合下需要把同一
之前的章节中,我们学习了 XML DOM,并使用了 XML DOM 的 getElementsByTagName() 方法从 XML 文档中取回数据 本章节我们将继续学习其它重要的 XML DOM
我对我尝试编写的 SQL 查询有疑问。 我需要从数据库中查询数据。该数据库除其他外,还包括以下 3 个字段: Account_ID #, Date_Created, Time_Created 我需要编
我正在使用非常激进的视频压缩,例如 -crf 51 .我将其用于“艺术”效果,因此从普通视频压缩的角度来看,我所做的可能没有意义。 到目前为止,我只使用了非常基本的压缩控制,只使用了 -crf。或 -
我真的在学习 lucene 和 ravendb 上的绳索 - 我在 Raven 中有以下文档 - { "InternalEvent": { "Desec": "MachineInfo: 1
通常 grep 命令用于显示包含指定模式的行。有没有办法在包含指定模式的行之前和之后显示 n 行? 这可以使用awk来实现吗? 最佳答案 是的,使用 grep -B num1 -A num2 在匹配之
我搜索了高低,并尝试了几个小时来操纵似乎适合的各种其他查询,但我没有快乐。 我试图加入 Microsoft SQL Server 2005 中的几个表,其中一个示例是: Company Table (
我有一个如下所示的 XML 文件: teacher1Name
我将如何在 CF 中创建此语句? 显然括号不起作用,但说明了我想要完成的工作。这是什么语法? 编辑: 好的,我了解如何使用 EQ 等等。我有点匆忙地发布了这个。我的问题是关于括号。以这种方式使用它们
主要问题:我需要使用具体对象结构对任何对象结构进行类型扩展。 我在 VS Code 中测试的默认值。 我的解决方案: /** @template A @typedef {{[Ki in keyof A
我是一名优秀的程序员,十分优秀!