gpt4 book ai didi

R:计算和解释逻辑回归中的优势比

转载 作者:行者123 更新时间:2023-12-02 03:33:27 34 4
gpt4 key购买 nike

我在解释逻辑回归的结果时遇到困难。我的结果变量是 Decision 并且是二进制的(0 或 1,分别不采用或采用产品)。
我的预测变量是 Thoughts,它是连续的,可以是正值,也可以是负值,并且四舍五入到小数点后第二位。
我想知道随着 Thoughts 的变化,获取该产品的概率如何变化。

逻辑回归方程为:

glm(Decision ~ Thoughts, family = binomial, data = data)

根据此模型,想法决策的概率具有重大影响(b = .72,p = .02)。确定 Decision 的优势比作为 Thoughts 的函数:

exp(coef(results))

优势比 = 2.07。

问题:

  1. 如何解释优势比?

    1. 优势比为 2.07 是否意味着想法增加(或减少)0.01 会影响采用(或不采用)产品的几率 0.07
    2. 这是否意味着随着 Thoughts 增加(减少)0.01,采用(不采用)产品的几率会增加(减少)大约 2 个单位?
  2. 如何将想法的优势比转换为决策的估计概率?
    或者我可以只估计在某个Thoughts分数下Decision的概率(即计算当Thoughts == 1时采取产品的估计概率) )?

最佳答案

r 中逻辑回归返回的系数是 logit,或几率的对数。要将 logits 转换为优势比,您可以对其求幂,就像上面所做的那样。要将 logits 转换为概率,您可以使用函数 exp(logit)/(1+exp(logit))。但是,此过程有一些注意事项。

首先,我将使用一些可重现的数据来说明

library('MASS')
data("menarche")
m<-glm(cbind(Menarche, Total-Menarche) ~ Age, family=binomial, data=menarche)
summary(m)

这将返回:

Call:
glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial,
data = menarche)

Deviance Residuals:
Min 1Q Median 3Q Max
-2.0363 -0.9953 -0.4900 0.7780 1.3675

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -21.22639 0.77068 -27.54 <2e-16 ***
Age 1.63197 0.05895 27.68 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 3693.884 on 24 degrees of freedom
Residual deviance: 26.703 on 23 degrees of freedom
AIC: 114.76

Number of Fisher Scoring iterations: 4

显示的系数适用于 logits,就像您的示例中一样。如果我们绘制这些数据和该模型,我们会看到 sigmoidal 函数,它是适合二项式数据的逻辑模型的特征

#predict gives the predicted value in terms of logits
plot.dat <- data.frame(prob = menarche$Menarche/menarche$Total,
age = menarche$Age,
fit = predict(m, menarche))
#convert those logit values to probabilities
plot.dat$fit_prob <- exp(plot.dat$fit)/(1+exp(plot.dat$fit))

library(ggplot2)
ggplot(plot.dat, aes(x=age, y=prob)) +
geom_point() +
geom_line(aes(x=age, y=fit_prob))

enter image description here

请注意,概率的变化不是恒定的 - 曲线首先缓慢上升,然后在中间更快,然后在最后趋于平稳。 10和12之间的概率差异远小于12和14之间的概率差异。这意味着如果不进行概率变换,就不可能用一个数字来概括年龄和概率的关系。

回答您的具体问题:

您如何解释比值比?

截距值的优势比是当 x = 0(即零想法)时“成功”的几率(在您的数据中,这是取乘积的几率)。系数的优​​势比是当您添加一个完整的 x 值(即 x=1;一个想法)时,高于该截距值的优势增加。使用初潮数据:

exp(coef(m))

(Intercept) Age
6.046358e-10 5.113931e+00

我们可以将此解释为年龄 = 0 时初潮发生的几率为 0.00000000006。或者说,基本上不可能。对年龄系数求幂可以告诉我们每个年龄单位初潮几率的预期增加。在这种情况下,它刚刚增加了五倍多。优势比为 1 表示没有变化,优势比为 2 表示加倍,等等。

优势比为 2.07,意味着“想法”每增加 1 个单位,获得该产品的可能性就会增加 2.07 倍。

如何将想法的优势比转换为估计的决策概率?

您需要对选定的想法值执行此操作,因为正如您在上图中看到的那样,变化在 x 值范围内并不是恒定的。如果您想要思想具有某种值(value)的概率,请按如下方式获取答案:

exp(intercept + coef*THOUGHT_Value)/(1+(exp(intercept+coef*THOUGHT_Value))

关于R:计算和解释逻辑回归中的优势比,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41384075/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com