gpt4 book ai didi

sentiment-analysis - 一般来说,TF-IDF 什么时候会降低准确率?

转载 作者:行者123 更新时间:2023-12-05 08:23:36 25 4
gpt4 key购买 nike

我正在使用朴素贝叶斯模型将包含 200000 条评论的语料库训练成正面评论和负面评论,我注意到执行 TF-IDF 实际上将准确度降低了大约 2%(在对 50000 条评论的测试集进行测试时) .所以我想知道 TF-IDF 是否对它使用的数据或模型有任何潜在的假设,即在任何情况下使用它会降低准确性?

最佳答案

在某些情况下,TF*IDF 的 IDF 组件可能会损害您的分类准确性。

假设以下人工的、简单的分类任务,是为了说明而制作的:

  • A 类:包含单词“corn”的文本
  • B 类:不包含“ Jade 米”一词的文本

现在假设在 A 类中有 100 000 个示例,在 B 类中有 1000 个示例。

TFIDF 会怎样? corn的逆向文档频率会很低(因为它几乎在所有文档中都有),特征'corn'会得到一个非常小的TFIDF,这是分类器使用的特征的权重。显然,“ Jade 米”是这个分类任务的最佳特征。这是 TFIDF 可能会降低分类准确性的示例。更一般地说:

  • 当类(Class)不平衡时。如果您在一个类别中有更多实例,则频繁类别的好词特征可能具有较低的 IDF,因此它们的最佳特征将具有较低的权重
  • 当你有高频词可以很好地预测其中一个类别时(在该类别的大多数文档中找到的词)

关于sentiment-analysis - 一般来说,TF-IDF 什么时候会降低准确率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39152229/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com