gpt4 book ai didi

python - scikit 学习中的样本权重和类权重选项有什么区别?

转载 作者:太空狗 更新时间:2023-10-29 17:31:05 24 4
gpt4 key购买 nike

我有类(class)不平衡问题,想使用成本敏感学习来解决这个问题。

  1. 欠采样和过采样
  2. 赋予类权重以使用修改后的损失函数

问题

Scikit learn 有 2 个选项,称为类权重和样本权重。样本权重实际上是在执行选项 2) 和类别权重选项 1)。选项 2) 是处理类不平衡的推荐方法。

最佳答案

这是相似的概念,但使用 sample_weights 可以强制估计器更加关注某些样本,使用 class_weights 可以强制估计器关注某些特定类进行学习。 sample_weight=0 或 class_weight=0 基本上意味着估计器根本不需要在学习过程中考虑这些样本/类。因此,如果该类的 class_weight = 0,分类器(例如)将永远不会预测某个类。如果某些 sample_weight/class_weight 大于其他样本/类上的 sample_weight/class_weight - 估计器将首先尝试最小化该样本/类的错误。您可以同时使用用户定义的 sample_weights 和 class_weights。

如果您想通过简单的克隆/删除对训练集进行欠采样/过采样 - 这将等于增加/减少相应的 sample_weights/class_weights。

在更复杂的情况下,您还可以尝试使用 SMOTE 等技术人工生成样本.

关于python - scikit 学习中的样本权重和类权重选项有什么区别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32492550/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com