gpt4 book ai didi

python - R、statmodels、sklearn 与逻辑回归分类任务的比较

转载 作者:太空狗 更新时间:2023-10-29 18:07:41 25 4
gpt4 key购买 nike

我在 R、python statmodels 和 sklearn 中做了一些逻辑回归实验。虽然 R 和 statmodels 给出的结果一致,但与 sklearn 返回的结果存在一些差异。我想了解为什么这些结果不同。我理解这可能不是木头下使用的相同优化算法。

具体来说,我使用标准的 Default 数据集(在 ISL book 中使用)。以下 Python 代码将数据读入数据框 Default

import pandas as pd
# data is available here
Default = pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv', index_col=0)
#
Default['default']=Default['default'].map({'No':0, 'Yes':1})
Default['student']=Default['student'].map({'No':0, 'Yes':1})
#
I=Default['default']==0
print("Number of 'default' values :", Default[~I]['balance'].count())

“默认”值的数量:333。

一共有10000个例子,只有333个正例

R 中的逻辑回归

我使用以下内容

library("ISLR")
data(Default,package='ISLR')
#write.csv(Default,"default.csv")
glm.out=glm('default~balance+income+student', family=binomial, data=Default)
s=summary(glm.out)
print(s)
#
glm.probs=predict(glm.out,type="response")
glm.probs[1:5]
glm.pred=ifelse(glm.probs>0.5,"Yes","No")
#attach(Default)
t=table(glm.pred,Default$default)
print(t)
score=mean(glm.pred==Default$default)
print(paste("score",score))

结果如下

Call: glm(formula = "default~balance+income+student", family = binomial, data = Default)

Deviance Residuals: Min 1Q Median 3Q Max
-2.4691 -0.1418 -0.0557 -0.0203 3.7383

Coefficients:

Estimate Std. Error z value Pr(>|z|)        
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16
balance 5.737e-03 2.319e-04 24.738 < 2e-16
income 3.033e-06 8.203e-06 0.370 0.71152
studentYes -6.468e-01 2.363e-01 -2.738 0.00619

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 2920.6  on 9999  degrees of freedom Residual 

deviance: 1571.5 on 9996 degrees of freedom AIC: 1579.5

Number of Fisher Scoring iterations: 8

     glm.pred   No  Yes
No 9627 228
Yes 40 105

1 "score 0.9732"

我懒得剪切和粘贴使用 statmodels 获得的结果。可以说它们与 R 给出的极其相似。

sklearn

对于 sklearn,我运行了以下代码。

  • 有一个参数 class_weight 用于考虑不平衡的类。我测试了 class_weight=None(无加权——我认为这是 R 中的默认设置)和 class_weight='auto'(使用数据中发现的反频率加权)
  • 我还设置了 C=10000,正则化参数的倒数,以最小化正则化的影响。

~~

import sklearn
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

features = Default[[ 'balance', 'income' ]]
target = Default['default']
#
for weight in (None, 'auto'):
print("*"*40+"\nweight:",weight)

classifier = LogisticRegression(C=10000, class_weight=weight, random_state=42)
#C=10000 ~ no regularization

classifier.fit(features, target,) #fit classifier on whole base
print("Intercept", classifier.intercept_)
print("Coefficients", classifier.coef_)

y_true=target
y_pred_cls=classifier.predict_proba(features)[:,1]>0.5
C=confusion_matrix(y_true,y_pred_cls)

score=(C[0,0]+C[1,1])/(C[0,0]+C[1,1]+C[0,1]+C[1,0])
precision=(C[1,1])/(C[1,1]+C[0 ,1])
recall=(C[1,1])/(C[1,1]+C[1,0])
print("\n Confusion matrix")
print(C)
print()
print('{s:{c}<{n}}{num:2.4}'.format(s='Score',n=15,c='', num=score))
print('{s:{c}<{n}}{num:2.4}'.format(s='Precision',n=15,c='', num=precision))
print('{s:{c}<{n}}{num:2.4}'.format(s='Recall',n=15,c='', num=recall))

结果如下。

> **************************************** 
>weight: None
>
>Intercept [ -1.94164126e-06]
>
>Coefficients [[ 0.00040756 -0.00012588]]
>
> Confusion matrix
>
> [[9664 3]
> [ 333 0]]
>
> Score 0.9664
> Precision 0.0
> Recall 0.0
>
> ****************************************
>weight: auto
>
>Intercept [-8.15376429]
>
>Coefficients
>[[ 5.67564834e-03 1.95253338e-05]]
>
> Confusion matrix
>
> [[8356 1311]
> [ 34 299]]
>
> Score 0.8655
> Precision 0.1857
> Recall 0.8979

我观察到,对于 class_weight=None,分数非常好,但没有正例被识别。准确率和召回率均为零。找到的系数非常很小,尤其是截距。修改 C 不会改变任何事情。对于 class_weight='auto' 情况似乎更好,但我的精度仍然很低(过多的正分类)。同样,更改 C 也无济于事。如果我手动修改截距,我可以恢复 R 给出的结果。所以我怀疑这两种情况下截距的估计存在差异。由于这对三阈值的规范有影响(类似于脉动的重采样),这可以解释性能的差异。

但是,我欢迎任何关于在两种解决方案之间进行选择的建议,并有助于理解这些差异的根源。谢谢。

最佳答案

虽然这篇文章很旧,但我想给你一个解决方案。在您的帖子中,您将苹果与橙子进行比较。在您的 R 代码中,您在“默认”上估算“余额、收入和学生”。在您的 Python 代码中,您仅在“默认”时估算“余额和收入”。当然,您无法获得相同的估计值。此外,差异不能归因于特征缩放,因为与 kmeans 相比,逻辑回归通常不需要它。

你设置高C是对的,这样就没有正则化了。如果您想获得与 R 中相同的输出,则必须将求解器更改为“newton-cg”。不同的求解器可以给出不同的结果,但它们仍然会产生相同的目标值。只要您的求解器收敛,一切都会好起来的。

下面是为您提供与 R 和 Statsmodels 中相同的估计值的代码:

import pandas as pd
from sklearn.linear_model import LogisticRegression
from patsy import dmatrices #
import numpy as np

# data is available here
Default = pd.read_csv('https://d1pqsl2386xqi9.cloudfront.net/notebooks/Default.csv', index_col=0)
#
Default['default']=Default['default'].map({'No':0, 'Yes':1})
Default['student']=Default['student'].map({'No':0, 'Yes':1})

# use dmatrices to get data frame for logistic regression
y, X = dmatrices('default ~ balance+income+C(student)',
Default,return_type="dataframe")

y = np.ravel(y)

# fit logistic regression
model = LogisticRegression(C = 1e6, fit_intercept=False, solver = "newton-cg", max_iter=10000000)
model = model.fit(X, y)

# examine the coefficients
pd.DataFrame(zip(X.columns, np.transpose(model.coef_)))

关于python - R、statmodels、sklearn 与逻辑回归分类任务的比较,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28747019/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com