- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
在统计方面,我仍然是个菜鸟。我正在使用具有 patsy 功能的 Python Package Statsmodel。
我的 Pandas 数据框看起来是这样的:
index sed label c_g lvl1 lvl2
0 5.0 SP_A c b c
1 10.0 SP_B g b c
2 0.0 SP_C c b c
3 -10.0 SP_H c b c
4 0.0 SP_J g b c
5 -20.0 SP_K g b c
6 30.0 SP_W g a a
7 40.0 SP_X g a a
8 -10.0 SP_Y c a a
9 45.0 SP_BB g a a
10 45.0 SP_CC g a a
11 10.0 SP_A c b c
12 10.0 SP_B g b c
13 10.0 SP_C c b c
14 6.0 SP_D g b c
15 10.0 SP_E c b c
16 29.0 SP_F c b c
17 3.0 SP_G g b c
18 23.0 SP_H c b c
19 34.0 SP_J g b c
因变量:沉积(纵向数据)
自变量:Label(分类)、control_grid(分类)、lvl1(分类)、lvl2(分类)。
我对两件事感兴趣。
哪些自变量对因变量有显着影响?
哪些自变量具有显着的交互作用?
在搜索和阅读多个文档后,我这样做:
import statsmodels.formula.api as smf
import pandas as pd
df = pd.read_csv('some.csv')
model = smf.ols(formula = 'sedimentation ~ lvl1*lvl2',data=df)
results = model.fit()
results.summary()
显示结果:
OLS Regression Results
==============================================================================
Dep. Variable: sedimentation R-squared: 0.129
Model: OLS Adj. R-squared: 0.124
Method: Least Squares F-statistic: 24.91
Date: Tue, 17 Jul 2018 Prob (F-statistic): 4.80e-15
Time: 11:15:28 Log-Likelihood: -2353.6
No. Observations: 510 AIC: 4715.
Df Residuals: 506 BIC: 4732.
Df Model: 3
Covariance Type: nonrobust
=======================================================================================
coef std err t P>|t| [0.025 0.975]
---------------------------------------------------------------------------------------
Intercept 6.9871 1.611 4.338 0.000 3.823 10.151
lvl1[T.b] -3.7990 1.173 -3.239 0.001 -6.103 -1.495
lvl1[T.d] -3.5124 1.400 -2.509 0.012 -6.263 -0.762
lvl2[T.b] -8.9427 1.155 -7.744 0.000 -11.212 -6.674
lvl2[T.c] 5.1436 0.899 5.722 0.000 3.377 6.910
lvl2[T.f] -3.5124 1.400 -2.509 0.012 -6.263 -0.762
lvl1[T.b]:lvl2[T.b] -8.9427 1.155 -7.744 0.000 -11.212 -6.674
lvl1[T.d]:lvl2[T.b] 0 0 nan nan 0 0
lvl1[T.b]:lvl2[T.c] 5.1436 0.899 5.722 0.000 3.377 6.910
lvl1[T.d]:lvl2[T.c] 0 0 nan nan 0 0
lvl1[T.b]:lvl2[T.f] 0 0 nan nan 0 0
lvl1[T.d]:lvl2[T.f] -3.5124 1.400 -2.509 0.012 -6.263 -0.762
==============================================================================
Omnibus: 13.069 Durbin-Watson: 1.118
Prob(Omnibus): 0.001 Jarque-Bera (JB): 18.495
Skew: -0.224 Prob(JB): 9.63e-05
Kurtosis: 3.818 Cond. No. inf
==============================================================================
我是否在 Python 中使用了正确的模型来获得我想要的结果?
我想我是,但我想验证一下。我阅读表格的方式是分类变量 lvl1 和 lvl2 对因变量有显着影响并且显示出显着的交互作用(对于某些变量)。但是,我不明白为什么我的所有变量都没有显示...正如您在我的数据中看到的那样,lvl1 列也包含“a”,但该变量未显示在结果摘要中。
最佳答案
我不是专家,恐怕我无法告诉您适用于纵向数据的正确检验是什么,但我认为您得到的数字并不能真正那么可信。
首先,答案的简单部分,关于你的“为什么我的所有变量都没有显示”:例如,在 lvl1 中,“a”没有显示,因为你必须修复某种“基本”值.所以你应该把每个条目都读成“用'b'代替'a'的效果”和“用'd'代替'a'的效果”等。用更多的数学术语来说,如果你有一个分类变量取三个值(此处为 a、b、d),然后当您对它们进行隐式单热编码时,您将获得三个维度,它们的值始终为 0 或 1,并且其总和始终为 1。这意味着您的最终 A
回归 y = A.x + b
中的矩阵将始终退化,您必须删除一列以使其有可能不退化(从而为回归系数提供任何可解释性)。
关于为什么我认为您得到的数字不可信:在线性回归的各种假设中,连续观察(行)是独立的。在纵向数据的情况下,这正是明显失败的地方。将示例推到极限,如果您在 1 天内每秒观察一群人(例如您的集合中的 11 个人),您将获得近 100 万行的巨大数据框,并且每个人的数据几乎相同数据一遍又一遍地重复。在这种情况下,自变量和因变量之间的任何虚假相关性都会被你的模型视为非常重要(对他来说,你已经运行了 86400 次独立测试,它们都完全证实了相同的结论!),当然这不是情况。
总而言之,我不能肯定地说您得到的回归系数不是您希望得到的最佳猜测,但可以肯定的是 t 统计量、p 值和其他看起来像统计量的一切都不是很有意义。
关于python - 使用 ols(python statsmodel)是否适用于纵向数据和多个因变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51438022/
我有这个html Ordered List Style Here’s another, they shouldn’t be too terribly long, but might
这是文档导出功能中包含的html {{ $leftdata->title }} {{ $rightdata->title }}
对于我的评估,我想运行一个滚动的 1000 窗口 OLS 回归估计 在此 URL 中找到的数据集: https://drive.google.com/open?id=0B2Iv8dfU4fTUa3dP
我有很多使用无法正常工作的旧嵌套列表的 html 页面。我想动态查看页面是否使用它并添加类属性或建议更好的方法。 动态更新所有出现的 to 或者建议我是否仍然可以使用该类型但使用嵌入式 CSS 应
我已将数据分为训练样本和验证样本,并成功地将我的模型与三种类型的线性模型拟合。我不知道该怎么做是将模型应用于验证样本以评估拟合度。当我尝试将模型应用于保留样本时(抱歉,我知道这不是一个可重现的示例,但
我用的是 OpenLayers 4.1.1 我有一个用 ol-debug.js 编写的函数 我的目标是手动输入第一个坐标并简单地绘制线串。 ol.interaction.Draw.prototype.
我遇到了一个问题,我正在使用的所见即所得编辑器通过在父 ol 内部而不是内部创建新的 ol 来在列表中创建子项父 li 的,这让我很难理解如何让计数器将元素 3 识别为 3 而不是 4。我意识到正确的
可以为 ol.style.Text 实例(offsetX 和 offsetY 属性)定义一个偏移量,并为ol.style.Icon 实例。此功能在 ol.style.Circle 和 ol.style
我需要像这样 用这个标记 Lorem ipsum dolor sit amet consectetuer adipiscing elit
我试图在选择 VectorTile 图层后更改该要素的样式。但是,第一次触发选择交互时,控制台会报告错误: Uncaught TypeError: feature.getId is not a fun
我试图在选择 VectorTile 图层后更改该要素的样式。但是,第一次触发选择交互时,控制台会报告错误: Uncaught TypeError: feature.getId is not a fun
我用python处理一个线性回归模型,json数据如下: {"Y":[1,2,3,4,5],"X":[[1,43,23],[2,3,43],[3,23,334],[4,43,23],[232,234,
这个问题在这里已经有了答案: Does UL have default margin or padding [duplicate] (2 个答案) 关闭 3 年前。
我有以下 HTML: A numbered bullet An un-numbered bullet 但是显示是这样的: 1. A numbered b
我正在计算蒙特卡罗回归,以分析因变量中的测量误差对 OLS 估计的影响。这方面的理论很清楚。平均而言,常数和斜率系数的估计应该是正确的。但是,我的 R 代码会产生一个有偏常数但无偏斜率系数。我怀疑我在
我想在单击链接时切换订单列表 **Group 1**
奇怪的问题列表项编号与其内容不一致。参见 live page或截图:1 , 2 看到有序列表的行号与其内容不对齐。当屏幕很宽时它们都在下面,当屏幕很窄时它们都在空中。 认为是 CSS 有问题,因为 C
我使用下面的 CSS 代码在我的网页中显示有序列表。我已将内容导出到 PDF,然后 PDF 中的有序列表显示不同,如下图链接所示。 ol { counter-reset: item; } o
我是使用 CSS 列表的后来者。我使用此代码创建列表,其中第一个缩进为 a-z,第二个缩进为罗马、i、ii、iii、iv 等: /* SF/2013-10-16; this code will cre
出于样式的原因,我使用带有伪类的 ol 元素。不幸的是,我无法开始计算所需索引中的列表项。怎么了? js fiddle HTML car flower garden
我是一名优秀的程序员,十分优秀!