gpt4 book ai didi

machine-learning - 两个类别的比例在分类问题中重要吗?

转载 作者:行者123 更新时间:2023-11-30 08:51:13 25 4
gpt4 key购买 nike

我正在使用我收集的一些推文构建情绪分析程序。我收集的标记数据将通过神经网络,将它们分为两类:正面和负面。

数据仍在标记中。到目前为止,我观察到积极类别的观察数量非常少。

我的训练集中的正类别记录可能约为训练数据集的 5%(相同的比例也可以反射(reflect)在总体中)。

这会在最终的“程序”中产生问题吗?数据集大小约为5000条记录。

最佳答案

是的,是的,可以。有两件事需要考虑:

  1. 5000 的 5% 是 250。因此,您将尝试仅基于 250 个样本对类(class)的数据分布进行建模。对于神经网络来说,这可能是小几个数量级。因此,您可能需要 40 倍以上的数据才能获得具有代表性的数据样本。虽然您可以通过子采样轻松减少多数类别,而无需承担破坏结构的巨大风险 - 无法从较少的点中获得“更多结构”(您可以复制点,添加噪声等,但这不会增加结构,这只是增加了假设)。
  2. 类别不平衡还会导致收敛到朴素的解决方案,例如“always False”,其准确率高达 95%。在这里,您可以简单地使用成本函数,使其对不平衡更加稳健(特别是@PureW建议的火车分割与尝试改变损失函数的“黑匣子”方法不同,因此它对少数人有更大的权重类。当您可以访问分类器损失时,就像在 NN 中一样,您不应该这样做 - 而是更改成本函数并仍然保留所有数据)。

关于machine-learning - 两个类别的比例在分类问题中重要吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37639516/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com