gpt4 book ai didi

machine-learning - 不平衡数据的特征工程

转载 作者:行者123 更新时间:2023-11-30 09:39:40 25 4
gpt4 key购买 nike

我正在针对分类问题训练机器学习模型。我的数据集有 10000 个观察值,具有 37 分类类别。但数据不平衡,我有一些类具有 100 观察值,而其他一些类则具有 30004000 观察值。

在搜索了如何对此类数据进行一些特征工程以提高算法的性能之后。我找到了 2 个解决方案:

  • 上采样意味着获取有关少数类别的更多数据
  • 下采样意味着删除有关大多数类的数据

根据第一个解决方案:我有很多类(class),只有一些观察结果,因此需要更多的数据和很长时间。所以这对我来说会很难!
应用第二个: 我认为所有类都会有一些观察结果,并且数据会非常小,因此算法很难泛化。

那么我可以尝试其他解决方案来解决这个问题吗?

最佳答案

您可以更改损失函数中的权重,以便在优化时较小的类别具有更大的重要性。在keras中你可以使用weighted_cross_entropy_with_logits ,例如。

关于machine-learning - 不平衡数据的特征工程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59583232/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com