python - statsmodel 线性回归(ols)的鲁棒性问题

python - statsmodel 线性回归(ols)的鲁棒性问题 - Python

转载作者：太空宇宙更新时间：2023-11-04 03:27:08

我正在使用统计模型测试一些基本类别回归:我建立了一个确定性模型

Y = X + Z

其中 X 可以取 3 个值(a、b 或 c)，而 Z 只能取 2 个值(d 或 e)。在那个阶段，模型是纯粹确定性的，我如下设置每个变量的权重

a's weight=1

b's weight=2

c's weight=3

d's weight=1

e's weight=2

因此，如果 X=a，则 1(X=a) 为 1，否则为 0，模型很简单:

Y = 1(X=a) + 2*1(X=b) + 3*1(X=c) + 1(Z=d) + 2*1(Z=e)

使用以下代码生成不同的变量并运行回归

from statsmodels.formula.api import ols
nbData = 1000
rand1 = np.random.uniform(size=nbData)
rand2 = np.random.uniform(size=nbData)
a = 1 * (rand1 <= (1.0/3.0))
b = 1 * (((1.0/3.0)< rand1) & (rand1< (4/5.0)))
c = 1-b-a
d = 1 * (rand2 <= (3.0/5.0))
e = 1-d
weigths = [1,2,3,1,2]
y = a+2*b+3*c+4*d+5*e
df = pd.DataFrame({'y':y, 'a':a, 'b':b, 'c':c, 'd':d, 'e':e})

mod = ols(formula='y ~ a + b + c + d + e - 1', data=df)
res = mod.fit()
print(res.summary())

我最终得到了正确的结果(必须查看 coef 之间的区别而不是 coef 本身)

                           OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 1.006e+30
Date:                Wed, 16 Sep 2015   Prob (F-statistic):               0.00
Time:                        03:05:40   Log-Likelihood:                 3156.8
No. Observations:                 100   AIC:                            -6306.
Df Residuals:                      96   BIC:                            -6295.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
a              1.6000   7.47e-16   2.14e+15      0.000         1.600     1.600
b              2.6000   6.11e-16   4.25e+15      0.000         2.600     2.600
c              3.6000   9.61e-16   3.74e+15      0.000         3.600     3.600
d              3.4000   5.21e-16   6.52e+15      0.000         3.400     3.400
e              4.4000   6.85e-16   6.42e+15      0.000         4.400     4.400
==============================================================================
Omnibus:                       11.299   Durbin-Watson:                   0.833
Prob(Omnibus):                  0.004   Jarque-Bera (JB):                5.720
Skew:                          -0.381   Prob(JB):                       0.0573
Kurtosis:                       2.110   Cond. No.                     2.46e+15
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The smallest eigenvalue is 1.67e-29. This might indicate that there are
strong multicollinearity problems or that the design matrix is singular.

但是当我将数据点的数量增加到(比如说)600 时，回归产生了非常糟糕的结果。我在 Excel 和 R 中尝试过类似的回归，无论数据点的数量有多少，它们都会产生一致的结果。有谁知道 statsmodel ols 是否对解释此类行为有一些限制，或者我是否遗漏了什么？

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.167
Model:                            OLS   Adj. R-squared:                  0.161
Method:                 Least Squares   F-statistic:                     29.83
Date:                Wed, 16 Sep 2015   Prob (F-statistic):           1.23e-22
Time:                        03:08:04   Log-Likelihood:                -701.02
No. Observations:                 600   AIC:                             1412.
Df Residuals:                     595   BIC:                             1434.
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
a              5.8070   1.15e+13   5.05e-13      1.000     -2.26e+13  2.26e+13
b              6.4951   1.15e+13   5.65e-13      1.000     -2.26e+13  2.26e+13
c              6.9033   1.15e+13   6.01e-13      1.000     -2.26e+13  2.26e+13
d             -1.1927   1.15e+13  -1.04e-13      1.000     -2.26e+13  2.26e+13
e             -0.1685   1.15e+13  -1.47e-14      1.000     -2.26e+13  2.26e+13
==============================================================================
Omnibus:                       67.153   Durbin-Watson:                   0.328
Prob(Omnibus):                  0.000   Jarque-Bera (JB):               70.964
Skew:                           0.791   Prob(JB):                     3.89e-16
Kurtosis:                       2.419   Cond. No.                     7.70e+14
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
[2] The smallest eigenvalue is 9.25e-28. This might indicate that there are
strong multicollinearity problems or that the design matrix is singular.

最佳答案

看来，正如 F 先生所提到的，主要问题是在这种情况下，statsmodel OLS 似乎无法像处理 Excel/R 那样处理共线性 pb，但是如果不是为每个定义一个变量>a, b, c, d and e，一个定义一个变量X，一个Z可以等于a, b or c 和 d 或 e resp，然后回归工作正常。即更新代码:

df['X'] = ['c']*len(df)
df.X[df.b!=0] = 'b'
df.X[df.a!=0] = 'a'
df['Z'] = ['e']*len(df)
df.Z[df.d!=0] = 'd'
mod = ols(formula='y ~ X + Z - 1', data=df)

导致预期的结果

                           OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 2.684e+27
Date:                Thu, 17 Sep 2015   Prob (F-statistic):               0.00
Time:                        06:22:43   Log-Likelihood:             2.5096e+06
No. Observations:              100000   AIC:                        -5.019e+06
Df Residuals:                   99996   BIC:                        -5.019e+06
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
X[a]           5.0000   1.85e-14    2.7e+14      0.000         5.000     5.000
X[b]           6.0000   1.62e-14   3.71e+14      0.000         6.000     6.000
X[c]           7.0000   2.31e-14   3.04e+14      0.000         7.000     7.000
Z[T.e]         1.0000   1.97e-14   5.08e+13      0.000         1.000     1.000
==============================================================================
Omnibus:                      145.367   Durbin-Watson:                   1.353
Prob(Omnibus):                  0.000   Jarque-Bera (JB):             9729.487
Skew:                          -0.094   Prob(JB):                         0.00
Kurtosis:                       1.483   Cond. No.                         2.29
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

关于python - statsmodel 线性回归(ols)的鲁棒性问题 - Python，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32599159/

文章推荐： Consumer/Producer多线程同步错误

文章推荐： python - 使用 Pandas 分组直方图

文章推荐： python - LiveServerTestCase - settings.Database 配置不正确

文章推荐： python - 如何使用 map 应用 n 次函数

macos - react 性 cocoa 中的管道转发运算符(operator)在行动中失踪，是的，我已经导入了 react 性 cocoa
我在 Mac OsX 10.11 上使用 Xcode 7.0.1 (7A1001) 我使用 carthage 0.9.2 通过以下购物车文件下载reactivecocoa github“Reactiv
laravel - 如何避免vue中的 react 性
我正在将一个对象从属性“模型”(我从 Laravel 中的 Blade 属性模型中获得)分配给数据属性模型。后来数据属性模型发生变化，因为它绑定(bind)到表单输入字段。但 Prop “模型”也发生
javascript - 数组内对象的属性更改的 react 性
当我更新数组内对象的属性然后作为组件的 Prop 传递时，在 svelte 中触发 react 性的正确方法是什么？ let items = [{ id: 1, name: 'first'
dry - 是否有自动工具来查找代码库的 DRY 性？
我是 DRY principle 的坚定拥护者: Every piece of knowledge must have a single, unambiguous, authoritative rep
multithreading - 如何保持线程的消息泵 react 性
我正在实现一个需要以下功能的线程: 及时响应终止请求推送消息在等待消息时保持对 SendMessage 请求的响应我对消息泵的初始实现使用了 GetMessage，如下所示: while not
meteor - 暂停实时数据或游标的 react 性
在我的应用程序中，用户获得了一份已到达她的文档列表，并且可以对每个文档执行操作。文件是分批提交的，当这种情况发生时，列表会增加。这一切都很好，这是预期的行为，但最好有一个按钮“暂停实时数据”，它会忽
javascript - 简单的重构会消除 react 性
我有一个属性为的数据对象 displaySubtotal 我可以通过以下方式更新该属性的值: data.displaySubtotal = numPad.valueAsAString(); 我的方法
javascript - 自定义小部件的 react 性
我需要一个垂直 slider 输入。由于内置的 sliderInput 函数无法做到这一点，因此我选择自己实现。根据this thread可以 (I) 使用 CSS 旋转 sliderInput
javascript - 我应该如何保持我的出版物的 react 性？
我正在从自定义用户权限管理系统迁移到 Alanning:roles v2.0 .我有一个非常基本的结构: 基本用户用户组，每个用户组都有特定的设置。我将它们存储在一个“组”集合中。管理群组的用户的
r - 条件 react 性 Shiny
Shiny 中的响应式(Reactive)表达式将更改传播到需要去的地方。我们可以使用 isolate 来抑制一些这种行为。，但是我们可以抑制基于我们自己的逻辑表达式传播的更改吗？我给出的例子是一
Haskell:FRP react 性 Parsec？
是否有(或可能有) react 性 Parsec (或任何其他纯函数式解析器)在 Haskell 中？简而言之，我想逐个字符地为解析器提供数据，并获得与我提供的足够多的结果一样多的结果。或者更简单
javascript - 将输入字符串与文本/元素匹配并突出显示 react 性
HTML(JADE) p#result Lorem ipsum is javascript j s lo 1 2 4 this meteor thismeteor. meteor input.sear
javascript - svelte 如何处理导入内部的 react 性
我有一个被导入函数更改的对象。 https://svelte.dev/repl/e934087af1dc4a25a1ee52cf3fd3bbea?version=3.12.1 我想知道如何使我的更改反
image - 如何在YUV 420半平面图像中应用单应性/ react 性？
我有一个YUV 420半平面格式的图像，其中字节以这种方式存储: [Y1 Y2 ... [U1 V1.... Yk Yk+1...] Uk' Uk'+1] 其中Y平面的大小是UV平面的两倍，并
objective-c - react 性 NSMutableDictionary？
如何使用 ReactiveCocoa 订阅从 NSMutableDictionary 添加和删除的对象？另外，我想在它发生变化时广播通知。我的猜测是可以使用 RACMulticastConnectio
r - Shiny:允许用户选择 react 性
我正在构建一个带有多个选项卡的应用程序，其中一些选项卡涉及过多的计算，而另一些选项卡的计算速度很快。一个允许用户在 react 性或手动更新之间进行选择的复选框，与“刷新”按钮结合使用，将是理想的选择
meteor - 关闭内容可编辑区域的 react 性 (Meteor)
我知道您可以在获取集合时使用 reactive: false 关闭 react 性。如何在内容可编辑区域内的集合字段中实现相同的效果？示例: Template.documentPage.events(
z3 - z3 的解决方法不支持注入(inject)性
我想在 z3 中表示一个哈希函数，比如 SHA(x)。在做了一些研究之后，似乎 z3 不能很好地支持注入(inject)性，所以我不能有像这样的约束(虽然我意识到这并不是严格意义上的碰撞，但作为一种启
javascript - Meteor 中的模板级 react 性
我正在解决一个问题，我想在仪表板中将数据显示为图表(通过 perak:c3 )和表格(通过 aslagle:reactive-table )。我的问题是数据是从 MongoDB 中的集合中提取的，它的
swift - react 性 cocoa 信号不起作用
我的 ViewModel 中有这个函数，它返回一个信号，但内部 block 不起作用，我尝试添加断点，但它没有中断。这是我的代码。 func executeLoginAPI() -> RACSigna

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - statsmodel 线性回归(ols)的鲁棒性问题 - Python