python - statsmodels.api.sm.OLS 和 statsmodels.formula.api.ols 有什么区别-6ren

python - statsmodels.api.sm.OLS 和 statsmodels.formula.api.ols 有什么区别

转载作者：行者123 更新时间：2023-12-03 19:25:45

我用python处理一个线性回归模型，json数据如下:

{"Y":[1,2,3,4,5],"X":[[1,43,23],[2,3,43],[3,23,334],[4,43,23],[232,234,24]]}

我使用的是statsmodels.api.sm.OLS().fit和statsmodels.formula.api.ols.fit()，我认为它们是相同的模型，但结果不同。

这是第一个函数:

import statsmodels.api as sm
def analyze1():
    print 'using sm.OLS().fit'
    data = json.load(open(FNAME_DATA))
    X = np.asarray(data['X'])
    Y = np.log(np.asarray(data['Y']) + 1)
    X2 = sm.add_constant(X)
    results = sm.OLS(Y, X2).fit()
    print results.summary()

这是第二个功能:

from statsmodels.formula.api import ols
def analyze2():
    print 'using ols().fit'
    data = json.load(open(FNAME_DATA))
    results=ols('Y~X+1',data=data).fit()
    print results.summary()

第一个函数输出:

using sm.OLS().fit
/home/aaron/anaconda2/lib/python2.7/site-packages/statsmodels/stats/stattools.py:72: ValueWarning: omni_normtest is not valid with less than 8 observations; 5 samples were given.
  "samples were given." % int(n), ValueWarning)
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.449
Model:                            OLS   Adj. R-squared:                 -1.204
Method:                 Least Squares   F-statistic:                    0.2717
Date:                Wed, 07 Aug 2019   Prob (F-statistic):              0.849
Time:                        07:17:00   Log-Likelihood:               -0.87006
No. Observations:                   5   AIC:                             9.740
Df Residuals:                       1   BIC:                             8.178
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          1.0859      0.720      1.509      0.373      -8.057      10.228
x1             0.0024      0.018      0.134      0.915      -0.229       0.234
x2             0.0005      0.020      0.027      0.983      -0.256       0.257
x3             0.0008      0.003      0.332      0.796      -0.031       0.033
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.485
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.077
Skew:                           0.175   Prob(JB):                        0.962
Kurtosis:                       2.503   Cond. No.                         402.
==============================================================================

第二个函数输出:

using ols().fit
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      Y   R-squared:                       0.551
Model:                            OLS   Adj. R-squared:                 -0.796
Method:                 Least Squares   F-statistic:                    0.4092
Date:                Wed, 07 Aug 2019   Prob (F-statistic):              0.784
Time:                        07:17:00   Log-Likelihood:                -6.8251
No. Observations:                   5   AIC:                             21.65
Df Residuals:                       1   BIC:                             20.09
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      1.9591      2.368      0.827      0.560     -28.124      32.042
X[0]           0.0030      0.060      0.051      0.968      -0.757       0.764
X[1]           0.0098      0.066      0.148      0.906      -0.834       0.854
X[2]           0.0024      0.008      0.289      0.821      -0.103       0.108
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.485
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.077
Skew:                           0.175   Prob(JB):                        0.962
Kurtosis:                       2.503   Cond. No.                         402.
==============================================================================

我认为这些是相似的模型，但是使用相同的数据结果(coef)和对数似然不同，我不知道这两个模型是否有一些差异。

最佳答案

前者( OLS )是一个类。后者( ols )是 OLS 的一种方法从 statsmodels.base.model.Model 继承的类.

In [11]: from statsmodels.api import OLS                                           

In [12]: from statsmodels.formula.api import ols                                   

In [13]: OLS                                                                       
Out[13]: statsmodels.regression.linear_model.OLS

In [14]: ols                                                                       
Out[14]: <bound method Model.from_formula of <class 'statsmodels.regression.linear_model.OLS'>>

根据我自己的测试，我相信模型应该产生相同的结果。然而， 在您的示例中，您将 log 应用于第一个模型中的 y ，但不在第二个模型中。 相同的字段仅从 X 计算，这在两个模型中都是相同的。不同的字段是 y 不同的结果。

由于我无权访问您的数据，请随意使用此独立示例作为完整性检查。这两个模型(看起来很垃圾)在我安装它们后产生了相同的摘要。

示例:

import pandas as pd
import statsmodels.api as sm
import numpy as np
from sklearn.datasets import load_diabetes
from statsmodels.formula.api import ols

X = pd.DataFrame(data=load_diabetes()['data'],
                 columns=load_diabetes()['feature_names'])
X.drop(['age', 'bp', 's1', 's2', 's3', 's4', 's5', 's6'], axis=1, inplace=True)
X = sm.add_constant(X)
y = pd.DataFrame(data=load_diabetes()['target'], columns=['y'])

mod1 = sm.OLS(np.log(y), X)
results1 = mod1.fit()
print(results1.summary())

mod2 = ols('np.log(y) ~ sex + bmi', data=pd.concat([X, y], axis=1))
results2 = mod2.fit()
print(results2.summary())

输出 (OLS):

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.297
Model:                            OLS   Adj. R-squared:                  0.294
Method:                 Least Squares   F-statistic:                     92.90
Date:                Tue, 06 Aug 2019   Prob (F-statistic):           2.27e-34
Time:                        21:06:21   Log-Likelihood:                -291.29
No. Observations:                 442   AIC:                             588.6
Df Residuals:                     439   BIC:                             600.9
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.8813      0.022    218.671      0.000       4.837       4.925
sex           -0.0868      0.471     -0.184      0.854      -1.013       0.839
bmi            6.4042      0.471     13.593      0.000       5.478       7.330
==============================================================================
Omnibus:                       14.733   Durbin-Watson:                   1.892
Prob(Omnibus):                  0.001   Jarque-Bera (JB):               15.547
Skew:                          -0.446   Prob(JB):                     0.000421
Kurtosis:                       2.776   Cond. No.                         22.0
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

输出(ols):

                            OLS Regression Results                            
==============================================================================
Dep. Variable:              np.log(y)   R-squared:                       0.297
Model:                            OLS   Adj. R-squared:                  0.294
Method:                 Least Squares   F-statistic:                     92.90
Date:                Wed, 27 May 2020   Prob (F-statistic):           2.27e-34
Time:                        01:42:40   Log-Likelihood:                -291.29
No. Observations:                 442   AIC:                             588.6
Df Residuals:                     439   BIC:                             600.9
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      4.8813      0.022    218.671      0.000       4.837       4.925
sex           -0.0868      0.471     -0.184      0.854      -1.013       0.839
bmi            6.4042      0.471     13.593      0.000       5.478       7.330
==============================================================================
Omnibus:                       14.733   Durbin-Watson:                   1.892
Prob(Omnibus):                  0.001   Jarque-Bera (JB):               15.547
Skew:                          -0.446   Prob(JB):                     0.000421
Kurtosis:                       2.776   Cond. No.                         22.0
==============================================================================

Warnings:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.

关于python - statsmodels.api.sm.OLS 和 statsmodels.formula.api.ols 有什么区别，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57385279/

文章推荐： angular - 错误 : Cannot find control with unspecified name attribute

文章推荐： Spring:@Autowired 用于 POJO，不由 Spring 管理

文章推荐： python - Plotly Express 悬停选项

mobile - AT 命令 AT+CPMS ="SM","SM","MT"
我需要澄清一下 AT 命令 AT+CPMS="SM","SM","MT" 尽管此 AT 命令适用于大多数 UE，但它会为诺基亚 N72 提供错误消息... 我试过 AT 命令 AT+CPMS=? &
css - 如何让 `col-sm-4` 在隐藏时重新获得 `col-sm-5` 的整个空间
我使用 hidden-sm 在平板电脑模式下隐藏我的 col-sm-5。如何让 col-sm-4 在隐藏时重新获得 col-sm-5
database - 多值数据库 (UniVerse) -- SM (MV) 与 SM (VS) 和 ASSOC()
我有一个问题来自 IBM's Nested Relational Database White Paper 的第 16 页，我很困惑为什么在下面的 CREATE 命令中他们使用 MV/MS/MS 而不
cuda - 当 block 的数量少于可用的 SM 时，如何将它们调度到 CUDA 中的 SM 中？
这个问题源于在内核中观察到的理论占用率和实现占用率之间的差异。我知道 different occupancy between calculator and nvprof以及 A question ab
javascript - 当元素是 col-sm-6 或 col-sm-4 的一部分时，我可以调整它吗？
我想将 col-sm-4 中的元素移动到显示它的窗口的左侧，基本上我的元素是一个圆环图，它在移动 View 中显示了一半——但是我想如果我可以在 col-xs-6 元素内进行调整，它将正确显示。这是
html - bootstrap 标签和输入大小 : two lines under sm size, 一行超过 sm 大小，一个固定宽度
是否可以在 bootstrap 中实现？我实现了两行标签和输入。 LABEL* 但是当显示宽度超过 sm 大小时，我想将它们放在一行中。因此，我按如下方式编辑我的代码。
css - 为什么 col-sm-12 添加了 col-sm 在 bootstrap 中没有的边距？
我注意到我的网站在桌面上看起来很好，但在我的手机上却有些问题。简而言之，我的网站是这样的我注意到:第二行左侧没有空白。第一种方法:改变
html - Bootstrap 4 col-sm-6 inside col-sm-6 不工作
这个问题在这里已经有了答案: Nested rows with bootstrap grid system? (2 个答案) bootstrap 3 to bootstrap 4 cols no
java - Left JOIN issuesdevices AS sm ON sd.DeviceID = sm.DeviceID' 在第 1 行
我想从两个表中获取数据。表一 deviceadd 具有以下列 DeviceID (primary key), DeviceName, SerialNumber, ModelNumber, Make
css - col-sm-2 和 col-sm-1 之间的 Bootstrap css 列宽
我正在使用 bootstrap，在某些 div 中，我使用了宽度为 16.6667% 的 col-sm-2 类。在这个宽度下，我看到我的元素相当大。我也尝试过使用 col-sm-1，但这次元素太小了
javascript - 在 Bootstrap 中，如果未指定 col-md 和 col-lg，类 ="col-sm-4"是否将被视为类 ="col-sm-4 col-md-4 col-lg-4"？
如果类中没有指定col-lg和col-md，那么col-sm是否适用于所有大屏？最佳答案是的。来自 bootstrap , Grid classes apply to devices with
cuda - CUDA SM 上的经线如何安排？
作为this question的回答显示，当一个 SM 包含 8 个 CUDA 核心(计算能力 1.3)时，32 个线程的单个 warp 需要 4 个时钟周期来执行整个 warp 的单个指令。即在
python sm.ols 更改摘要格式以避免科学记数法
我正在运行一个 ols 模型，我需要知道所有系数，以便在我的分析中使用它们。如何以不同于科学记数法的格式显示/保存系数？ model = sm.ols(formula="sales ~ product
c++ - 关于CUDA的架构(SM、SP)
我是一个刚刚接触CUDA编程的人。好像有SP SM和CUDA架构的概念。我曾尝试运行示例源的 deviceQuery.cpp 我认为有效的是他们环境的 SP SM 开发，不知SP是不是SM中的任
CUDA - 限制使用的 SM 数量
有什么方法可以明确限制在我的程序运行期间使用的 GPU 多处理器的数量？我想计算我的算法如何随着多处理器数量的增加而扩展。如果有帮助:我正在使用 CUDA 4.0 和计算能力为 2.0 的设备。最
html - fxHide.gt-sm 不工作
我有以下 div，它在导航栏上显示了一个登录按钮，但如果屏幕很小，我想隐藏这个按钮。出于某种原因，当我添加 fxHide.gt-sm=true 时，当我缩小屏幕时它不会隐藏。我该如何解决这个问题？
android - sm list-disks not found
我正在尝试在我的新 Android 设备上制作我的 SD 卡内部存储。我已经成功地安装了 ADB 和 Fastboot，虽然它不像我希望的那么简单，并且必须将它们安装在 usr/local/bin
cuda - 了解流式多处理器 (SM) 和流式处理器 (SP)
我试图了解 GPU 的基本架构。我已经浏览了很多 Material ，包括这个very good SO answer .但我仍然很困惑，无法得到一张好的照片。我的理解: 一个 GPU 包含两个或多个
html - 如何使用 col-sm 内联？
我有两个 block 使用 Bootstrap 3: A B 当我处于移动模式时， block 被放置在彼此之下。如何将它们内联放置直到有可用空间？最佳答案仅供引用，
css - bootstrap 3 中的隐藏 sm
我正在尝试创建一个简单的侧边栏，它将隐藏在小型设备上.. 但不能让它工作.. #sidebar 要么被隐藏，要么 #main 上的 padding-left 设置为 0 sidebar test @m

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - statsmodels.api.sm.OLS 和 statsmodels.formula.api.ols 有什么区别