gpt4 book ai didi

frequency - TF-IDF:这种方法正确吗?

转载 作者:行者123 更新时间:2023-12-02 10:20:57 25 4
gpt4 key购买 nike

我想使用tf-idf计算词频。我起草了一个方程式,您应该在左侧获取tf-idf值。这样对吗?

DOCUMENT的TF-IDF:

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )



occurrences(WORD,DOCUMENT)WORDDOCUMENT出现的次数
number-of-words(DOCUMENT)DOCUMENT中的单词数
documents(ALL):数据库中的文档数
documents(WORD, ALL):数据库中包含 WORD的文档数


如果您能帮助我,那就太好了。提前非常感谢您!

最佳答案

根据Wikipedia文章的说法,这是正确的,您可能希望更改为1 + documents(WORD,ALL),而不仅仅是wikipedia文章建议的document(WORD,ALL)。

TF-IDF on wikipedia

关于frequency - TF-IDF:这种方法正确吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1315794/

25 4 0
文章推荐: recursion - 变体、递归函数和类型推断
文章推荐: java - 通过 T3 协议(protocol)从 shell 调用 java 方法
文章推荐: java - Hibernate 延迟加载与显式查询
文章推荐: angularjs - 1.3.0 rc0 之后