gpt4 book ai didi

algorithm - tf-idf 和以前看不见的术语

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:37:39 24 4
gpt4 key购买 nike

TF-IDF (term frequency - inverse document frequency)是信息检索的主要内容。虽然它不是一个合适的模型,并且当新术语被引入语料库时它似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,尤其是当它们出现频率很高时。在传统的余弦匹配下,这些对总匹配没有影响。

最佳答案

呃,不,不会崩溃。

假设我有两个文档,A“weasel goat”和 B“cheese gopher”。如果我们实际上将它们表示为向量,它们可能看起来像:

A [1,1,0,0]
B [0,0,1,1]

如果我们在索引文件中分配了这些向量,是的,我们在添加新术语时遇到了问题。但它的诀窍是,那个向量永远不存在。关键是 inverted index .

就不会影响余弦匹配的新术语而言,这可能是正确的,具体取决于您的意思。如果我用查询“marmoset kungfu”搜索我的 (A,B) 语料库,语料库中不存在 marmoset 和 kungfu。所以代表我的查询的向量将与集合中的所有文档正交,并得到一个糟糕的余弦相似度分数。但考虑到没有一个术语匹配,这似乎很合理。

关于algorithm - tf-idf 和以前看不见的术语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/223032/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com