python - AUC 高，但数据不平衡导致预测不佳-6ren

python - AUC 高，但数据不平衡导致预测不佳

转载作者：行者123 更新时间：2023-11-30 08:24:03

28

4

我正在尝试在非常不平衡的数据集上使用 LightGBM 构建分类器。不平衡的比例为 97:3，即:

Class

0    0.970691
1    0.029309

我使用的参数和训练代码如下所示。

lgb_params = {
        'boosting_type': 'gbdt',
        'objective': 'binary',
        'metric':'auc',
        'learning_rate': 0.1,
        'is_unbalance': 'true',  #because training data is unbalance (replaced with scale_pos_weight)
        'num_leaves': 31,  # we should let it be smaller than 2^(max_depth)
        'max_depth': 6, # -1 means no limit
        'subsample' : 0.78
    }

# Cross-validate
cv_results = lgb.cv(lgb_params, dtrain, num_boost_round=1500, nfold=10, 
                    verbose_eval=10, early_stopping_rounds=40)

nround = cv_results['auc-mean'].index(np.max(cv_results['auc-mean']))
print(nround)

model = lgb.train(lgb_params, dtrain, num_boost_round=nround)


preds = model.predict(test_feats)

preds = [1 if x >= 0.5 else 0 for x in preds]

我运行 CV 以获得最佳模型和最佳回合。我在 CV 上得到了 0.994 AUC，在验证集中得到了类似的分数。

但是当我在测试集上进行预测时，我得到了非常糟糕的结果。我确信训练集的采样是完美的。

需要调整哪些参数？问题的原因是什么？我是否应该对数据集重新采样以减少最高类别？

最佳答案

问题是，尽管数据集中存在极端的类别不平衡，但在决定最终的硬分类时，您仍然使用“默认”阈值 0.5

preds = [1 if x >= 0.5 else 0 for x in preds]

这里的情况应该不。

这是一个相当大的主题，我强烈建议您进行自己的研究(尝试使用谷歌搜索阈值或切断概率不平衡数据)，但这里有一些指导您入门...

来自Cross Validated的相关答案(强调):

Don't forget that you should be thresholding intelligently to make predictions. It is not always best to predict 1 when the model probability is greater 0.5. Another threshold may be better. To this end you should look into the Receiver Operating Characteristic (ROC) curves of your classifier, not just its predictive success with a default probability threshold.

2.2. How to set the classification threshold for the testing set

Predictionresultsareultimatelydeterminedaccordingtopredictionprobabilities.Thethresholdistypicallysetto0.5.Ifthepredictionprobabilityexceeds0.5,thesampleispredictedtobepositive;otherwise,negative.However,0.5isnotidealforsomecases,particularlyforimbalanceddatasets.

帖子Optimizing Probability Thresholds for Class Imbalances来自(强烈推荐)应用预测建模博客的内容也很相关。

从上述所有内容中吸取教训:AUC 很少足够，但 ROC曲线本身通常是您最好的 friend ......

<小时/>

在更一般的层面上，关于阈值本身在分类过程中的作用(至少根据我的经验，许多从业者都犯了错误)，还请检查 Classification probability threshold交叉验证的线程(以及提供的链接)；要点:

the statistical component of your exercise ends when you output a probability for each class of your new sample. Choosing a threshold beyond which you classify a new observation as 1 vs. 0 is not part of the statistics any more. It is part of the decision component.

关于python - AUC 高，但数据不平衡导致预测不佳，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51190809/

28

4

0

文章推荐： javascript - 在 javascript 中重建包含嵌套数组的对象数组

文章推荐： java - 使用转换为 Jar 的 OTAClient.dll 在 QC 中创建测试集

auc - 在 SQL 中计算 AUC
在 SQL 中计算 AUC 的最佳方法是什么？这是我得到的(假设表 T(label, confid) 和 label=0,1): SELECT sum(cumneg * label) * 1e0 /
python - Tensorflow尝试使用未初始化的值AUC/AUC/auc/false_positives
我正在训练用于图像分类的CNN。由于我的数据集有限，我正在使用转移学习。基本上，我使用的是Google在其再培训示例(https://www.tensorflow.org/tutorials/imag
python - AUC 与 GridSearchCV AUC 有何不同？
我正在 sci-kit learn 中构建 MLPClassifier 模型。我使用 gridSearchCV 和 roc_auc 对模型进行评分。训练和考试的平均成绩在 0.76 左右，还不错。 c
tensorflow - Keras，训练期间验证集上的 auc 与 sklearn auc 不匹配
我使用我的测试集作为验证集。我使用了与 How to compute Receiving Operating Characteristic (ROC) and AUC in keras? 类似的方法
scikit-learn - sklearn RandomForestClassifier 与 auc 方法中 ROC-AUC 分数的差异
我分别从 sklearn 的 RandomForestClassifier 和 roc_curve、auc 方法收到不同的 ROC-AUC 分数。以下代码让我获得了 0.878 的 ROC-AUC(
python - 手动计算 AUC
如何获得具有 fpr 和 tpr 的 AUC 值？ Fpr 和 tpr 只是从这些公式中获得的 2 个浮点数: my_fpr = fp / (fp + tn) my_tpr = tp / (tp +
python - 如何在sklearn的交叉验证中获得多类roc auc？
我有一个分类问题，我想在 sklearn 中使用 cross_validate 获取 roc_auc 值。我的代码如下。 from sklearn import datasets iris = dat
python - 如何在sklearn的交叉验证中获得多类roc auc？
我有一个分类问题，我想在 sklearn 中使用 cross_validate 获取 roc_auc 值。我的代码如下。 from sklearn import datasets iris = dat
python - 如何计算部分曲线下面积 (AUC)
在 scikit learn 中，您可以使用以下方法计算二元分类器的曲线下面积 roc_auc_score( Y, clf.predict_proba(X)[:,1] ) 我只对误报率小于 0.1 的
python - AUC 的网格搜索查找参数
我正在尝试为我的 SVM 找到参数，这些参数会给我最好的 AUC。但是我在 sklearn 中找不到 AUC 的任何评分函数。有人有想法吗？这是我的代码: parameters = {"C":
r - 如何为不同的插入符号训练模型绘制 AUC ROC？
这是一个代表 library(caret) library(dplyr) set.seed(88, sample.kind = "Rounding") mtcars % mutate(am = a
xgboost 正确使用 auc 指标
对于二元分类问题，我有一个略微不平衡的数据集，正负比为 0.6。我最近从这个答案中了解到了 auc 指标:https://stats.stackexchange.com/a/132832/12822
python - PySpark:如何评估机器学习推荐算法的 AUC？
我有一个 Spark 数据框，如下所示: predictions.show(5) +------+----+------+-----------+ | user|item|rating| predi
python - 为什么在相同数据和相同算法上评估时会产生两个不同的 AUC 分数
我正在研究一个分类问题，其评估指标为 ROC AUC。到目前为止，我已经尝试使用具有不同参数的 xgb 。这是我用来采样数据的函数。并且可以找到相关笔记本here (google colab) def
python - 计算 AUC 曲线时如何创建阈值？
我对 python 中的 scikit-learn 中如何生成阈值感到困惑。对于以下示例，生成了四个阈值，当我将 pred 中的第三个值更改为 0.6 时，阈值数量降至 3。任何人都可以解释为什么会这
python - 测试准确率较低但 AUC 分数较高的可能原因
假设我有一个如下所示的数据集: word label_numeric 0 active 0 1 adventurous 0 2 aggressive 0 3 aggressi
python - ROC-AUC 的倒数？
我有一个分类问题，需要根据给定的数据预测 (0,1) 类。基本上我有一个包含超过 300 个特征(包括预测目标值)和超过 2000 行(样本)的数据集。我应用了不同的分类器，如下所示: 1. Dec
python - pandas 数据框中重置索引可提高预测模型的 AUC
我的目标是找到预测模型来确定是否偿还贷款。我的来源是一个 CSV 文件，其中包含贷款特征以及是否已偿还。我使用 ROC 曲线和 AUC 评估模型的性能 df = pd.read_csv(your_pa
machine-learning - 为什么我们要在分类问题中最大化 AUC？
我想知道为什么我们的目标是在最大化准确率时最大化 AUC？我认为，除了最大化准确性的主要目标之外，AUC 也会自动变大。最佳答案我想我们使用 AUC 是因为它解释了我们的方法能够在多大程度上独立
python - AUC 高，但数据不平衡导致预测不佳
我正在尝试在非常不平衡的数据集上使用 LightGBM 构建分类器。不平衡的比例为 97:3，即: Class 0 0.970691 1 0.029309 我使用的参数和训练代码如下所示。

首页

博学

6Ren·AI

商城

python - AUC 高，但数据不平衡导致预测不佳