frequency - TF-IDF:这种方法正确吗？-6ren

frequency - TF-IDF:这种方法正确吗？

转载作者：行者123 更新时间：2023-12-02 10:20:57

26

4

我想使用tf-idf计算词频。我起草了一个方程式，您应该在左侧获取tf-idf值。这样对吗？

DOCUMENT的TF-IDF：

tf-idf(WORD) = occurrences(WORD,DOCUMENT) / number-of-words(DOCUMENT) * log10 ( documents(ALL) / ( 1 + documents(WORD, ALL) ) )

occurrences(WORD,DOCUMENT)： WORD中 DOCUMENT出现的次数
number-of-words(DOCUMENT)： DOCUMENT中的单词数
documents(ALL)：数据库中的文档数
documents(WORD, ALL)：数据库中包含 WORD的文档数

如果您能帮助我，那就太好了。提前非常感谢您！

最佳答案

根据Wikipedia文章的说法，这是正确的，您可能希望更改为1 + documents（WORD，ALL），而不仅仅是wikipedia文章建议的document（WORD，ALL）。

TF-IDF on wikipedia

关于frequency - TF-IDF:这种方法正确吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1315794/

26

4

0

文章推荐： recursion - 变体、递归函数和类型推断

文章推荐： java - 通过 T3 协议(protocol)从 shell 调用 java 方法

文章推荐： java - Hibernate 延迟加载与显式查询

文章推荐： angularjs - 1.3.0 rc0 之后

首页

博学

6Ren·AI

商城

frequency - TF-IDF:这种方法正确吗？