gpt4 book ai didi

python - Statsmodels 逻辑回归类不平衡

转载 作者:太空宇宙 更新时间:2023-11-04 05:42:01 27 4
gpt4 key购买 nike

我想通过类或样本权重重新平衡数据集,对具有 0.5% 正类的数据集运行逻辑回归。我可以在 scikit learn 中执行此操作,但它不提供模型的任何推论统计信息(置信区间、p 值、残差分析)。

这可以在 statsmodels 中完成吗?我在 statsmodels.discrete.discrete_model.Logit.fit 中没有看到 sample_weights 或 class_weights 参数

谢谢!

最佳答案

程序员的回答:

statsmodels Logit 和其他离散模型还没有权重。 (*)

GLM 二项式通过每次观察的成功和不成功试验次数隐含地定义了案例权重。它还允许通过 GLM 方差函数操纵权重,但这尚未得到官方支持和测试。

更新 statsmodels Logit 仍然没有权重,但是 GLM 已经在几个 statsmodels 版本之前获得了 var_weights 和 freq_weights。 GLM 二项式可用于估计 Logit 或 Probit 模型。

统计学家/计量经济学家的回答:

推论、标准误差、置信区间、测试等均基于随机样本。如果权重被操纵,那么这应该会影响推断统计。但是,我从未考虑过根据观察到的响应重新平衡数据的问题。通常,这会产生选择偏差。快速的互联网搜索显示了几个答案,从重新平衡对 Logit 没有积极影响到惩罚估计作为替代方案。

一种可能性是也尝试不同的链接函数,cloglog 或其他链接函数具有不对称或较重的尾部,更适合于某一类或类别中风险较小的数据。

(*) 实现权重的一个问题是决定它们对推理的解释是什么。例如,Stata 允许 3 种权重。

关于python - Statsmodels 逻辑回归类不平衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33605979/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com