作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
使用分类算法(例如朴素贝叶斯或 SVM)和 StringToWordVector,是否可以使用 TF/IDF 并计算整个当前类中的术语频率,而不是仅查看单个文档?
让我解释一下,我希望计算能够为给定类(不仅仅是给定文档)非常频繁但在整个语料库中不太频繁的单词提供高分。
是否可以开箱即用,或者是否需要一些额外的开发?
谢谢:)
最佳答案
I would like the computation to give high score to words that are very frequent for a given class (not just for a given document) but not very frequent in the whole corpus.
您似乎想要监督术语权重。我不知道有任何现成的实现,但是有很多 literature about it 。例如。加权方案 tf-χ2 用 χ2 独立性测试的结果替换 idf,因此统计上依赖于某些类别的项得到提升,还有其他几个项。
Tf-idf 本身本质上是不受监督的。
关于machine-learning - 特遣部队/以色列国防军可以考虑上课吗,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19321571/
我是一名优秀的程序员,十分优秀!