gpt4 book ai didi

r - SMOTE算法及分类 : overrated prediction success

转载 作者:行者123 更新时间:2023-11-30 09:28:18 24 4
gpt4 key购买 nike

我遇到了一个无法找到答案的问题。我有一个二元分类问题(输出 Y=0 或 Y=1),Y=1 为少数类(实际上 Y=1 表示公司默认,原始数据框中比例=0.02)。因此,我仅在训练集上使用 SMOTE 算法计算过采样(在将数据帧分割为训练集和测试集之后)。我在训练集上训练逻辑回归(“默认”类别的比例=0.3),然后查看 ROC 曲线和 MSE 来测试我的算法是否能很好地预测默认值。我在 AUC (AUC=0.89) 和 MSE (MSE=0.06) 方面都得到了非常好的结果。然而,当我尝试更精确地、单独地审视我的预测时,我发现 20% 的违约率没有得到很好的预测。您是否有一种方法可以很好地评估我的预测的质量(质量对我来说意味着可以很好地预测默认值的预测)。我认为 AUC 是一个很好的标准......到目前为止,你还有一个方法来改善我的回归吗?谢谢

最佳答案

对于每个分类问题,您都可以构建一个 confusion matrix

这是一个双向输入矩阵,不仅可以让您看到您的正确预测真阳性/真阴性 (TP/TN),还可以看到还有误报 (FP)/误报 (FN),这在大多数情况下是您真正感兴趣的。

FP 和 FN 是您的模型所犯的错误,您可以使用灵敏度 或<强>特异性 (link)。

请注意,您无法在不降低另一个的情况下改进其中一个。所以有时你需要选择一个。

一个很好的折衷方案是 F1-score ,它试图对两者进行平均。

因此,如果您对默认值更感兴趣(假设 defaults=Positive Class ),您会更喜欢具有更高灵敏度的模型。但记住也不要完全忽视特殊性。

这里是 R 中的示例代码:

# to get the confusion matrix and some metrics
caret::confusionMatrix(iris$Species, sample(iris$Species))

关于r - SMOTE算法及分类 : overrated prediction success,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53173236/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com