gpt4 book ai didi

r - 带有虚拟变量的 Python 中的 OLS - 最佳解决方案?

转载 作者:太空宇宙 更新时间:2023-11-03 13:47:35 25 4
gpt4 key购买 nike

我有一个问题想用 Python 解决,我已经找到了多种解决方案(我认为),但我正在尝试找出最好的解决方案。我希望选择将来会得到全面支持的库,这样我就不必重新编写此服务。

我想对分类变量和连续因变量进行普通的多变量最小二乘回归。代码必须用 Python 编写,因为它被集成到 Web 服务中。我一直在关注 Pandas,但从未使用过它,所以这似乎是一种方法:

解决方案 1。https://github.com/pydata/pandas/blob/master/examples/regressions.py

显然,numpy/scipy 是理想的,但我找不到使用虚拟变量的示例(有人有吗???)。不过我确实找到了这个,

解决方案 2。http://www.scipy.org/Cookbook/OLS

我可以对其进行修改以支持虚拟变量,但如果其他人已经这样做了,我不想这样做+我希望数字与 R 非常相似,因为我已经离线完成了大部分分析,而且我可以将这些结果用于单元测试。

在上面的示例 (2) 中,我看到我在技术上可以使用 rpy/rpy2,尽管这不是最佳选择,因为我的 Web 服务还需要另一项技术 (R)。使用该界面的好处是数字与我在 R 中的结果相同。

解决方案 3。http://www.scipy.org/Cookbook/OLS (但使用 Rpy/Rpy2)

无论如何,我对这三种解决方案中每个人的方法很感兴趣,如果有任何我遗漏的……以及 Panda 是否足够成熟,可以开始在生产 Web 服务中使用。这里的关键是我不想支持/修补错误修复或尽可能从头开始编写任何东西。我太忙了,可能不够聪明:)

谢谢。

最佳答案

可以使用statsmodels,它提供了很多不同的模型和结果统计

如果你想使用类似 R 的公式界面,这里有一些例子,你可以查看相应的文档:

http://statsmodels.sourceforge.net/devel/examples/notebooks/generated/contrasts.html http://statsmodels.sourceforge.net/devel/examples/notebooks/generated/example_formulas.html

如果你想要一个纯 numpy 版本,那么这是一个从头开始做所有事情的旧例子 http://statsmodels.sourceforge.net/devel/examples/generated/example_ols.html#ols-with-dummy-variables

模型与 pandas 集成,可以使用 pandas DataFrame 作为因变量和自变量的数据结构(statsmodels 命名约定中的 endog 和 exog)。

关于r - 带有虚拟变量的 Python 中的 OLS - 最佳解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16390446/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com