r - biglm 和 lm 之间的 AIC 不同-6ren

r - biglm 和 lm 之间的 AIC 不同

转载作者：行者123 更新时间：2023-12-04 11:25:19

24

4

我一直在尝试使用 biglm 在大型数据集(约 60,000,000 行)上运行线性回归。我想使用 AIC 进行模型选择。但是我发现在较小的数据集上使用 biglm 时，biglm 返回的 AIC 变量与 lm 返回的变量不同。这甚至适用于 biglm 帮助中的示例。

data(trees)
ff<-log(Volume)~log(Girth)+log(Height)

chunk1<-trees[1:10,]
chunk2<-trees[11:20,]
chunk3<-trees[21:31,]

library(biglm)
a <- biglm(ff,chunk1)
a <- update(a,chunk2)
a <- update(a,chunk3)

AIC(a)#48.18546

a_lm <- lm(ff, trees)
AIC(a_lm)#-62.71125

有人可以解释一下这里发生了什么吗？使用 biglm 生成的 AIC 是否可以安全地用于比较同一数据集上的 biglm 模型？

最佳答案

tl;博士 在我看来，biglm 的 AIC 方法中存在一个非常明显的错误。 -class 对象(更具体地说，在更新方法中)，在当前(0.9-1)版本中，但作者biglm package 是一个聪明、有经验的人，而且 biglm被广泛使用，所以也许我错过了一些东西。谷歌搜索 "biglm AIC df.resid" ，看来这已经discussed way back in 2009? 更新 :包作者/维护者通过电子邮件报告这确实是一个错误。

这里似乎发生了一些有趣的事情。差异在模型之间的 AIC 中，跨建模框架应该是相同的，无论使用了哪些常量以及计算参数(因为这些常量和参数计数在建模框架内应该是一致的......)

原始示例:

data(trees)
ff <- log(Volume)~log(Girth)+log(Height)
chunk1<-trees[1:10,]
chunk2<-trees[11:20,]
chunk3<-trees[21:31,]
library(biglm)
a <- biglm(ff,chunk1)
a <- update(a,chunk2)
a <- update(a,chunk3)
a_lm <- lm(ff, trees)

现在拟合一个简化模型:

ff2 <- log(Volume)~log(Girth)    
a2 <- biglm(ff2, chunk1)
a2 <- update(a2, chunk2)
a2 <- update(a2 ,chunk3)
a2_lm <- lm(ff2,trees)

现在比较 AIC 值:

AIC(a)-AIC(a2)
## [1] 1.80222

AIC(a_lm)-AIC(a2_lm)
## [1] -20.50022

检查我们没有搞砸什么:

all.equal(coef(a),coef(a_lm))  ## TRUE
all.equal(coef(a2),coef(a2_lm))  ## TRUE

看看引擎盖下:

biglm:::AIC.biglm
## function (object, ..., k = 2) 
##    deviance(object) + k * (object$n - object$df.resid)

原则上这是正确的公式(观察数减去残差 df 应该是拟合的参数数)，但深入研究，它看起来像 $df.resid对象的组件未正确更新:

a$n  ## 31, correct
a$df.resid  ## 7, only valid before updating!

看着 biglm:::update.biglm ，我要补充

object$df.resid <- object$df.resid + NROW(mm)

在读取的行之前或之后

object$n <- object$n + NROW(mm)

...

这对我来说似乎是一个相当明显的错误，所以也许我遗漏了一些明显的东西，或者它已经被修复了。

一个简单的解决方法是将您自己的 AIC 函数定义为

AIC.biglm <- function (object, ..., k = 2) {
    deviance(object) + k * length(coef(object))
}

AIC(a)-AIC(a2)  ## matches results from lm()

(尽管请注意 AIC(a_lm) 仍然不等于 AIC(a) ，因为 stats:::AIC.default() 使用 2*log-likelihood 而不是偏差(这两个度量的附加系数不同)...)

关于r - biglm 和 lm 之间的 AIC 不同，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21740625/

24

4

0

文章推荐： r - 如何在不重新缩放的情况下调整热图的大小？

文章推荐： r - 如何附加数据框的多列？

文章推荐： macos - libgmalloc 如何使用两级命名空间？

python-2.7 - 手动计算的 AIC 与 statsmodel AIC 不同
我尝试手动编写 AIC 的公式。我想将它与 scikit learn 结合使用。为了测试我的编码是否正确，我比较了给定相同数据集的 statsmodels 的 AIC 值。但如果我比较模型 M1 和模
根据 AIC 值对模型列表进行排名
在跨数据框的一个响应变量和多个解释变量之间应用模型后，我想按 AIC 分数对每个模型进行排名。我遇到了一个非常相似的问题，它正是我想做的。 Using lapply on a list of mode
python - 手动计算 AIC 编号给定数据分布和一些分布字符串
假设我有以下数据: array([[0.88574245, 0.3749999 , 0.39727183, 0.50534724], [0.22034441, 0.81442653,
r - 为什么我的泊松回归的似然/AIC 是无限的？
我正在尝试评估 R 中多个回归的模型拟合，但我遇到了一个我现在遇到过多次的问题:我的泊松回归的对数似然是无限的。我使用的是非整数因变量(注意:我知道我在这方面做了什么)，我想知道这是否是问题所在。但
python - 使用 AIC 进行变量选择并评估多元回归中的标准
我对 R 和 Python 相当陌生。我喜欢使用 Akaike 信息准则执行多元回归来选择变量并评估我的准则。我编写了一些代码来使用 F 统计 P 值选择变量。该数据集包含房价信息我计划将变量(即
Matlab:直方图数据与许多高斯和 AIC 评估的拟合
考虑这个代码示例，根据 Akaike 准则从不同拟合高斯数量的数据中获得最佳拟合 MU1 = [1]; SIGMA1 = [2]; MU2 = [-3]; SIGMA2 = [1 ]; X = [mv
r - 如何在 stepAIC 中计算 AIC
这是来自 ?lm 的一个非常简单的 lm 模型 ctl 46.17468 (LL1 -20.08824 (df=3) 从第一性原理重构: n -20.08828 这有点不对劲，还没发现毛病。参
r - ARIMA、ARMA 和 AIC？
data <-c(88, 84, 85, 85, 84, 85, 83, 85, 88, 89, 91, 99, 104, 112, 126, 138, 146,151, 150, 148, 14
r - 使用嵌套循环从 ARIMA 中提取 AIC
我正在尝试从具有不同的 ARIMA 估计中提取 AIC 和 BIC p & q 的组合 (p=0,1,2,3 并且 q=0,1.2,3)。我曾尝试使用以下代码，但未成功。 code: storage1
r - 如何从 lm_robust 对象获取 AIC
如何从 lm_robust 对象(包 estimatr)获取 AIC？我使用 lm_robust 是因为我想使用稳健的估计器来计算 SE。与 lm 函数不同，当您运行汇总函数并在 lm_robust
python - 如何计算 scipy 中分布的 AIC？
我有: from scipy import stats data = stats.gamma.rvs(2, loc=1.5, scale=2, size=100000) 所以我做了一个合适的 fitt
python - 在 Python 中手动计算赤池信息准则 (AIC)
据我所知，Python中没有AIC包。因此，我尝试手动计算它以找到我的数据集中的最佳聚类数(我使用 K-means 进行聚类) 我遵循 Wiki 上的等式: AIC = 2k - 2ln(最大似然)
python - 如何计算 Python 中线性回归模型的 AIC？
我想计算线性模型的 AIC 以比较它们的复杂性。我是这样做的: regr = linear_model.LinearRegression() regr.fit(X, y) aic_intercept_
r - 如何从合并的 GLM 中提取 AIC 和对数似然？
我使用 MICE 包估算了数据。现在，我想展示基于汇总数据的 GLM 结果。这就是我得出数据的方式: data.imputed <- mice(data, m=5, maxit = 50, meth
r - R 中的模型选择，所有模型都提供相同的 AIC 和 BIC
所以这是我的数据头， thickness grains resistivity 1 25.1 14.9 0.0270 2 368.4 58.1 0.0
r - biglm 和 lm 之间的 AIC 不同
我一直在尝试使用 biglm 在大型数据集(约 60,000,000 行)上运行线性回归。我想使用 AIC 进行模型选择。但是我发现在较小的数据集上使用 biglm 时，biglm 返回的 AIC 变
r - 为什么 R 产生不正确的 AIC 和 BIC
我已经用谷歌搜索了这个并找不到解决方案。 R 似乎在 AIC/BIC 计算方面存在问题。它会产生错误的结果。一个简单的例子如下所示: link = 'https://gist.githubuserco
R:从 GLMNet 获取 AIC/BIC/Likelihood
我想知道是否可以从 GLMNet 获取 AIC 和 BIC。我发现 glmnet.cr 似乎能够做到这一点，但我的 react 是时间，而不是序数。我可以根据可能性自己计算它，但 glmnet 也不会
r - R 中具有限制系数的 ARIMA 的 AIC、BIC 值
指定相同 AR(或 MA)模型由 R 中的 forecast 包中的函数 arima() 进行估计的不同方法不同的 BIC(贝叶斯信息准则)值。为什么会发生这种情况？考虑两种模型: (1) AR(
r - 混合模型的 R 和 SAS 中的 AIC 计算不匹配
我尝试使用 R 重现一些 SAS 输出。我想重现的方法是: 使用混合模型对因子时间进行重复测量的两种方差分析(协方差矩阵 = CS，估计方法 = REML) 一切看起来都很好，除了 AIC .....

首页

博学

6Ren·AI

商城

r - biglm 和 lm 之间的 AIC 不同