machine-learning - 区分 tf-idf 文档相似度和朴素贝叶斯分类器-6ren

machine-learning - 区分 tf-idf 文档相似度和朴素贝叶斯分类器

转载作者：行者123 更新时间：2023-11-30 08:41:37

如何在 tf-idf 文档相似度和朴素贝叶斯分类器之间进行选择。我不明白该使用哪一种，有什么方法可以确定哪种算法适合什么用途？

最佳答案

你不知道。

术语频率逆文档频率是一种为特征分配数值的方法。它(大部分)独立于对数据点进行分类的方法。

我假设相似度是指余弦相似度和最近邻分类。

如果您正在进行分类，您会选择最能提供最佳准确度(或最能满足您的要求)的方法。在存在非常大的数据集的情况下，计算数据集中每个文档的余弦相似度将变得令人望而却步。

如果您的意思是与排名结果的余弦相似度(找到类似于 Q 的文档)，那么就没有“选择”。那是一个排序任务，朴素贝叶斯用于分类。

在现实生活中，这两种方法都不是特别好。您只会使用它们来初步了解一项任务可能有多难/容易，通过向它抛出愚蠢和简单的方法。如果一种“哑”方法的表现明显优于其他方法，您可以考虑尝试与最佳哑方法相关的更高级模型。

关于machine-learning - 区分 tf-idf 文档相似度和朴素贝叶斯分类器，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21618478/

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章