作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
如何在 tf-idf 文档相似度和朴素贝叶斯分类器之间进行选择。我不明白该使用哪一种,有什么方法可以确定哪种算法适合什么用途?
最佳答案
你不知道。
术语频率逆文档频率是一种为特征分配数值的方法。它(大部分)独立于对数据点进行分类的方法。
我假设相似度是指余弦相似度和最近邻分类。
如果您正在进行分类,您会选择最能提供最佳准确度(或最能满足您的要求)的方法。在存在非常大的数据集的情况下,计算数据集中每个文档的余弦相似度将变得令人望而却步。
如果您的意思是与排名结果的余弦相似度(找到类似于 Q 的文档),那么就没有“选择”。那是一个排序任务,朴素贝叶斯用于分类。
在现实生活中,这两种方法都不是特别好。您只会使用它们来初步了解一项任务可能有多难/容易,通过向它抛出愚蠢和简单的方法。如果一种“哑”方法的表现明显优于其他方法,您可以考虑尝试与最佳哑方法相关的更高级模型。
关于machine-learning - 区分 tf-idf 文档相似度和朴素贝叶斯分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21618478/
我是一名优秀的程序员,十分优秀!