gpt4 book ai didi

machine-learning - 朴素贝叶斯分类器的平衡语料库

转载 作者:行者123 更新时间:2023-11-30 08:46:21 25 4
gpt4 key购买 nike

我正在使用 NB 分类器进行情感分析。我发现了一些训练语料库应该平衡的信息(博客、教程等):

  • 33.3% 积极;
  • 33.3% 中立
  • 33.3% 负面

我的问题是:

为什么corpus应该平衡?贝叶斯定理基于原因/案例的概率。因此,出于训练目的,现实世界中负面推文只有 10% 而不是 33.3% 不是很重要吗?

最佳答案

你是对的,平衡数据对于许多判别模型很重要,但对于 NB 来说并不重要。

然而,偏倚 P(y) 估计量可能更有益于获得更好的预测性能(因为由于使用了各种简化模型,分配给少数类的概率可能严重不足)。对于 NB,它不是关于平衡数据,而是从字面上修改估计的 P(y),以便在验证集上最大化准确性。

关于machine-learning - 朴素贝叶斯分类器的平衡语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44866462/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com