gpt4 book ai didi

machine-learning - 区分 tf-idf 文档相似度和朴素贝叶斯分类器

转载 作者:行者123 更新时间:2023-11-30 08:41:37 24 4
gpt4 key购买 nike

如何在 tf-idf 文档相似度和朴素贝叶斯分类器之间进行选择。我不明白该使用哪一种,有什么方法可以确定哪种算法适合什么用途?

最佳答案

你不知道。

术语频率逆文档频率是一种为特征分配数值的方法。它(大部分)独立于对数据点进行分类的方法。

我假设相似度是指余弦相似度和最近邻分类。

如果您正在进行分类,您会选择最能提供最佳准确度(或最能满足您的要求)的方法。在存在非常大的数据集的情况下,计算数据集中每个文档的余弦相似度将变得令人望而却步。

如果您的意思是与排名结果的余弦相似度(找到类似于 Q 的文档),那么就没有“选择”。那是一个排序任务,朴素贝叶斯用于分类。

在现实生活中,这两种方法都不是特别好。您只会使用它们来初步了解一项任务可能有多难/容易,通过向它抛出愚蠢和简单的方法。如果一种“哑”方法的表现明显优于其他方法,您可以考虑尝试与最佳哑方法相关的更高级模型。

关于machine-learning - 区分 tf-idf 文档相似度和朴素贝叶斯分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21618478/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com