gpt4 book ai didi

machine-learning - 可以在不平衡数据上建立模型吗?

转载 作者:行者123 更新时间:2023-12-05 03:51:31 25 4
gpt4 key购买 nike

背景-我正在处理的数据集高度不平衡,类数为 543。数据受日期限制。在探索了 5 年的数据之后,我开始了解这种不平衡是固有的,并且会持续存在。模型将获得的测试数据也将受到日期范围的限制,并且也会有类似的不平衡。

数据不平衡的原因是消费金额不同,产品受欢迎程度不同。处理不平衡会给企业带来不公平。

问题 -在这种情况下,是否可以继续在不平衡数据上构建模型?

该模型每个月都会根据新数据进行重新训练,并且每个月都会将其用于预测一次。

最佳答案

根据您尝试建模的内容,这样做可能正确也可能不正确。

在不平衡的数据集上进行训练通常会使您的模型过度拟合那些出现频率更高的元素,这会导致最好的情况下偏向这些元素,或者最坏的情况下不理解代表性不足的样本。如果您尝试对某些信息的自然发生进行建模,那么本质上不平衡的数据集已经应用了先验概率,因此可能需要产生偏差。在这些情况下,每个类的元素数量,比如说, 是实际信息的一部分。然而,这种偏差也可以人为地(非)建模,例如通过应用用于分类的比例因子(例如通过类别权重)等。为了避免这种偏差,增强和集成方法,例如 Xgboost(或在更简单的情况下为 Adaboost)或随机森林,效果相对较好。如果您有时间,k 折交叉验证可以帮助进一步减少错误。

为确保每个样本都有充分的代表性,您可以选择对代表性不足的类别进行过采样或对代表性过多的类别进行欠采样。为了确定正确的可能性,请确保同时捕获先验分布并使用它来塑造后验分布。如果样本数量较少,数据扩充可能会有所帮助;根据您的情况,合成数据生成可能是一种不错的方法。比方说,您可以尝试仅在代表性不足的样本上训练 GAN,并使用它来生成更多——正如我们的想法:首先在所有可用数据上训练它,然后更改鉴别器损失以强制它仅伪造和识别代表性不足的类。在不进入深度学习领域的情况下,SMOTE 等技术或 ADASYN 可能会起作用。两者都可以在 imblearn 中找到基于 scikit-learn 构建的 Python 包。

最后,仔细选择损失指标可能会有所帮助。您可以在 Survey on deep learning with class imbalance 等论文中找到更多(和更详细的)信息。 .

关于machine-learning - 可以在不平衡数据上建立模型吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62832445/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com