gpt4 book ai didi

search-engine - 如何克服逆文档频率(IDF)的缺点

转载 作者:行者123 更新时间:2023-12-02 21:25:43 24 4
gpt4 key购买 nike

请告诉我如何克服 IDF 中的负权重问题。有人可以举个小例子吗?

最佳答案

IDF 定义为 N/n(t),其中 n(t) 是出现术语“t”的文档数,N 是集合中文档的总数。有时,会在该分数周围应用 log()。

请注意,这个分数 N/n(t) 始终 >= 1。对于出现在所有文档中的单词,其可能的情况是英文单词“the”,idf 的值为 1。即使如果对这个分数应用对数,则该值始终 >= 零。 (回想一下 log 函数的图表,它从 -inf 单调增加到 +inf,如果 x<1 log(1)=0,则 log(x)<0;如果 x>1,则 log(x)>0)。

因此,idf 的标准定义不可能为负数。

关于search-engine - 如何克服逆文档频率(IDF)的缺点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24474716/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com