gpt4 book ai didi

information-retrieval - 为什么在计算词频权重和 IDF 时使用 log,逆文档频率?

转载 作者:行者123 更新时间:2023-12-03 09:03:25 24 4
gpt4 key购买 nike

IDF 的公式是 log( N/df t ) 而不是 N/df t。

其中 N = 集合中的文档总数,df t = 术语 t 的文档频率。

据说使用 Log 是因为它“减弱”了 IDF 的效果。这是什么意思?

另外,为什么我们对词频使用对数频率权重,如下所示:

enter image description here

最佳答案

德巴西斯的回答是正确的。我不知道为什么他被否决了。

这是直觉:
如果 doc1 中“computer”这个词的词频是 10,而 doc2 中的词频是 20,我们可以说 doc2 比 doc1 与“computer”这个词更相关。

但是,如果 doc1 的同一个词 'computer' 的词频为 100 万,doc2 为 200 万,此时,在相关性方面没有太大区别,因为它们都包含非常高的词条计数'计算机'。

就像 Debasis 的回答一样,添加 log 是为了抑制高频项的重要性,例如使用 log base 2,100 万的计数将减少到 19.9!

我们还将 log(tf) 加 1,因为当 tf 等于 1 时,log(1) 为零。通过加一,我们区分了 tf=0 和 tf=1。

希望这可以帮助!

关于information-retrieval - 为什么在计算词频权重和 IDF 时使用 log,逆文档频率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27067992/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com