python - 线性回归在 Python 中失败，因变量中的值很大-6ren

python - 线性回归在 Python 中失败，因变量中的值很大

转载作者：太空宇宙更新时间：2023-11-03 11:27:16

26

4

我正在尝试使用 Python(使用 pandas.stats.api.ols)重写一个预测模型(在 Stata 中)，并遇到了线性回归问题:pandas 与 Stata 中的不匹配。

调查表明，根本原因可能是依赖值的值非常大。基于以下发现，我有这种怀疑:

1) 我在 Python 中创建了一个简单的 DataFrame 并用它运行了线性回归:

from pandas.stats.api import ols import pandas as pd df = pd.DataFrame({"A": [10,20,30,40,50,21], "B": [20, 30, 10, 40, 50,98], "C": [32, 234, 23, 23, 31,21], "D":[12,28,12,98,51,87], "E": [1,8,12,9,12,91]}) ols(y=df['A'], x=df[['B','C', 'D', 'E']])
LR 的总结是:

-------------------------Summary of Regression Analysis------------------------- Formula: Y ~ <B> + <C> + <D> + <E> + <intercept> Number of Observations: 6 Number of Degrees of Freedom: 5 R-squared: 0.4627 Adj R-squared: -1.6865 Rmse: 23.9493 F-stat (4, 1): 0.2153, p-value: 0.9026 Degrees of Freedom: model 4, resid 1 -----------------------Summary of Estimated Coefficients------------------------ Variable Coef Std Err t-stat p-value CI 2.5% CI 97.5% -------------------------------------------------------------------------------- B 0.3212 1.1176 0.29 0.8218 -1.8693 2.5117 C -0.0488 0.1361 -0.36 0.7806 -0.3155 0.2178 D 0.1512 0.4893 0.31 0.8092 -0.8077 1.1101 E -0.4508 0.8268 -0.55 0.6822 -2.0713 1.1697 intercept 20.9222 23.6280 0.89 0.5386 -25.3887 67.2331 ---------------------------------End of Summary---------------------------------
我将这个 DataFrame 保存到一个 Stata .dta 文件中，然后在 Stata 中运行 LR:

use "/tmp/lr.dta", clear reg A B C D E
结果是一样的:

Source | SS df MS Number of obs = 6 -------------+------------------------------ F( 4, 1) = 0.22 Model | 493.929019 4 123.482255 Prob > F = 0.9026 Residual | 573.570981 1 573.570981 R-squared = 0.4627 -------------+------------------------------ Adj R-squared = -1.6865 Total | 1067.5 5 213.5 Root MSE = 23.949 ------------------------------------------------------------------------------ A | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- B | .3211939 1.117591 0.29 0.822 -13.87914 14.52153 C | -.0488429 .1360552 -0.36 0.781 -1.777589 1.679903 D | .1512067 .4892539 0.31 0.809 -6.065353 6.367766 E | -.4508122 .8267897 -0.55 0.682 -10.95617 10.05455 _cons | 20.9222 23.62799 0.89 0.539 -279.2998 321.1442 ------------------------------------------------------------------------------
我在 R 中试过了，得到了相同的结果。
2) 但是，如果我在 Python 中增加因变量的值:

df = pd.DataFrame({"A": [10.0,20.0,30.0,40.0,50.0,21.0]}) df['B'] = pow(df['A'], 30) df['C'] = pow(df['A'], 5) df['D'] = pow(df['A'], 15) df['E'] = pow(df['A'], 25)
我已确保所有列都在此处使用 float64: df.dtypes 一个 float64 B float64 C float64 D float64 E float64 dtype: 对象
我得到的结果是:

-------------------------Summary of Regression Analysis------------------------- Formula: Y ~ <B> + <C> + <D> + <E> + <intercept> Number of Observations: 6 Number of Degrees of Freedom: 2 R-squared: -0.7223 Adj R-squared: -1.1528 Rmse: 21.4390 F-stat (4, 4): -1.6775, p-value: 1.0000 Degrees of Freedom: model 1, resid 4 -----------------------Summary of Estimated Coefficients------------------------ Variable Coef Std Err t-stat p-value CI 2.5% CI 97.5% -------------------------------------------------------------------------------- B -0.0000 0.0000 -0.00 0.9973 -0.0000 0.0000 C 0.0000 0.0000 0.00 1.0000 -0.0000 0.0000 D 0.0000 0.0000 0.00 1.0000 -0.0000 0.0000 E 0.0000 0.0000 0.00 0.9975 -0.0000 0.0000 intercept 0.0000 21.7485 0.00 1.0000 -42.6271 42.6271 ---------------------------------End of Summary---------------------------------
但在 Stata 中，我得到了截然不同的结果:

Source | SS df MS Number of obs = 6 -------------+------------------------------ F( 4, 1) = 237.35 Model | 1066.37679 4 266.594196 Prob > F = 0.0486 Residual | 1.1232144 1 1.1232144 R-squared = 0.9989 -------------+------------------------------ Adj R-squared = 0.9947 Total | 1067.5 5 213.5 Root MSE = 1.0598 ------------------------------------------------------------------------------ A | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- B | -1.45e-45 2.32e-46 -6.24 0.101 -4.40e-45 1.50e-45 C | 2.94e-06 3.67e-07 8.01 0.079 -1.72e-06 7.61e-06 D | -3.86e-21 6.11e-22 -6.31 0.100 -1.16e-20 3.90e-21 E | 4.92e-37 7.88e-38 6.24 0.101 -5.09e-37 1.49e-36 _cons | 9.881129 1.07512 9.19 0.069 -3.779564 23.54182 ------------------------------------------------------------------------------
R 中的结果与 Stata 一致: lm(公式=A~B+C+D+E,数据=stata)

Residuals: 1 2 3 4 5 6 -1.757e-01 8.211e-01 1.287e-03 -1.269e-06 1.289e-09 -6.467e-01 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 9.881e+00 1.075e+00 9.191 0.069 . B -1.449e-45 2.322e-46 -6.238 0.101 C 2.945e-06 3.674e-07 8.015 0.079 . D -3.855e-21 6.106e-22 -6.313 0.100 E 4.919e-37 7.879e-38 6.243 0.101 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.06 on 1 degrees of freedom Multiple R-squared: 0.9989, Adjusted R-squared: 0.9947 F-statistic: 237.3 on 4 and 1 DF, p-value: 0.04864
因此，在我看来，pandas 在这里遇到了一些问题。有谁能帮忙出出主意吗？

最佳答案

我认为这是因为 python 中的相对精度问题(不仅在 python 中，还有大多数其他编程语言，如 C++)。 np.finfo(float).eps给出 2.2204460492503131e-16 , 所以一切都小于 eps*max_value_of_your_data本质上将被视为 0当你尝试像 + - * / 这样的原始操作时.例如，1e117 + 1e100 == 1e117返回 True ，因为 1e100/1e117 = 1e-17 < eps .现在查看您的数据。

# your data # ======================= print(df) A B C D E 0 10 1.0000e+30 100000 1.0000e+15 1.0000e+25 1 20 1.0737e+39 3200000 3.2768e+19 3.3554e+32 2 30 2.0589e+44 24300000 1.4349e+22 8.4729e+36 3 40 1.1529e+48 102400000 1.0737e+24 1.1259e+40 4 50 9.3132e+50 312500000 3.0518e+25 2.9802e+42 5 21 4.6407e+39 4084101 6.8122e+19 1.1363e+33

当考虑相对精度时，

# =================================================== import numpy as np np.finfo(float).eps # 2.2204460492503131e-16 df[df < df.max().max()*np.finfo(float).eps] = 0 df A B C D E 0 0 0.0000e+00 0 0 0.0000e+00 1 0 1.0737e+39 0 0 0.0000e+00 2 0 2.0589e+44 0 0 8.4729e+36 3 0 1.1529e+48 0 0 1.1259e+40 4 0 9.3132e+50 0 0 2.9802e+42 5 0 4.6407e+39 0 0 0.0000e+00

因此 y(A) 完全没有变化，这就是为什么 statsmodels返回所有 0 系数。提醒一下，在运行回归之前先规范化数据始终是一个好习惯。

关于python - 线性回归在 Python 中失败，因变量中的值很大，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31488212/

26

4

0

文章推荐： android - 如何在android studio中创建自定义字体

文章推荐： mysql - SQL 不查询文本数据

文章推荐： python - statsmodel 中的 MNLogit 返回 nan

haskell - 为什么GHC这么大/很大？
有没有一个简单的答案:为什么 GHC 这么大？ OCaml:2MB Python:15MB SBCL:9MB OpenJRE - 26MB GHC:113MB 对“如果 Haskell 是正确的工具，
apache - access_log 很大，没有被归档。如何重置？
我发现我的 access_log 占用了我的大部分硬盘。它的大小超过 200 GB。我怎样才能重置它？我在装有 Plesk 的 CentOS 服务器上使用 Apache 2.2.3。谢谢你们 !
java - 用解释器评估计算器，但值(value)很大
我正在使用 Java 中的 BeanShell 解释器来解决字符串计算问题。问题是我自己做了一些解释器无法完成的解析并将部分结果存储在 BigInteger 中。然后我将所有内容拼凑起来并交给解释器来
android - OpenCv android apk 很大
我在我的 android 项目中使用 OpenCV native 库。它是一个带有一个 CameraScreen 的 hello world 项目，它已经有 40mb。我怎样才能减少 apk 的大小，
node.js - npm 运行生产后，vendor.js 很大
我使用基于 Laravel 和 Vue.js 的 Laravue Dashboard，在在线服务器上运行，而不是本地主机，它是全新安装，没有进行任何编辑。我的问题是: 运行 npm run watc
hadoop - 如何将我的 Hbase 表(很大)分成相等的部分，以便我可以将它存储到本地文件系统中？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 5 年前。 Improve this qu
c# - Kendo MVC ToDataSourceResult 非常慢，IQueryable 很大
我广泛使用了 Kendo DataSourceResult ToDataSourceResult(this IQueryable enumerable, DataSourceRequest reque
javascript - jQuery Mobile .ui-page min-height 很大
我使用 phonegap 构建 html\css 应用程序陪审团手机给我 div: 并且模拟器中的最小高度太大，我在底部看到黑线像这样: 如果我在 css 文件中更改 min-height: 736
MySQL:在两个表 A 和 B 中查找匹配的记录，其中 B 很大
以下工作正常但速度太慢。只需要知道B表中有匹配的记录，有什么技巧吗？ (奇怪的是相反的搜索:找到不加入的记录(IS NULL)非常快) SELECT TableA.id FROM TableA
vue.js - Bundle size 很大，如何减小 app.js 的大小？
我正在使用 Vue.js，我的项目中只有 4 个组件。我只导入了bootstrap、jquery 和lodash: import { map } from 'lodash'; import 'boo
algorithm - (2n log(n) + n) 变位词检测函数并不比 4n + 26 函数慢多少，尽管 n 很大
我有 2 个字谜检测功能；一个使用排序和比较，另一个跟踪每个字母字符出现的次数。这里假设传递给函数的两个字符串是相同的，第一个随机生成(未排序)，第二个 = 给第一个，这样两个函数都“一路”执行并返
perl - 使用 N 个并发异步 HTTP 客户端下载 M 个文件，其中 M 很大，N 是可配置的
我正在尝试编写一个脚本，该脚本将通过 HTTP 同时下载最多 N 个文件。我以前用过 AnyEvent::Worker::Pool管理阻塞任务池。我也用过 AnyEvent::HTTP结合AnyEv

首页

博学

6Ren·AI

商城

python - 线性回归在 Python 中失败，因变量中的值很大