- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是 R 新手,我正在使用 glmer 来拟合几个二项式模型,我只需要它们来调用 predict
使用得到的概率。但是,我有一个非常大的数据集,即使只有一个模型的大小也会变得非常大:
> library(pryr)
> object_size(mod)
701 MB
> object_size(coef(mod))
1.16 MB
> object_size(fitted(mod))
25.6 MB
glm
完成的帖子在
http://blog.yhathq.com/posts/reducing-your-r-memory-footprint-by-7000x.html但似乎 glmer 模型的访问方式不同并且具有不同的组件。
> object_size(getME(mod, "X"))
205 MB
> object_size(getME(mod, "Z"))
36.9 MB
> object_size(getME(mod, "Zt"))
38.4 MB
> object_size(getME(mod, "Ztlist"))
41.6 MB
> object_size(getME(mod, "mmList"))
38.4 MB
> object_size(getME(mod, "y"))
3.2 MB
> object_size(getME(mod, "mu"))
3.2 MB
> object_size(getME(mod, "u"))
18.4 kB
> object_size(getME(mod, "b"))
19.5 kB
> object_size(getME(mod, "Gp"))
56 B
> object_size(getME(mod, "Tp"))
472 B
> object_size(getME(mod, "L"))
15.5 MB
> object_size(getME(mod, "Lambda"))
38.1 kB
> object_size(getME(mod, "Lambdat"))
38.1 kB
> object_size(getME(mod, "Lind"))
9.22 kB
> object_size(getME(mod, "Tlist"))
936 B
> object_size(getME(mod, "A"))
38.4 MB
> object_size(getME(mod, "RX"))
30.3 kB
> object_size(getME(mod, "RZX"))
1.05 MB
> object_size(getME(mod, "sigma"))
48 B
> object_size(getME(mod, "flist"))
4.89 MB
> object_size(getME(mod, "fixef"))
4.5 kB
> object_size(getME(mod, "beta"))
496 B
> object_size(getME(mod, "theta"))
472 B
> object_size(getME(mod, "ST"))
936 B
> object_size(getME(mod, "REML"))
48 B
> object_size(getME(mod, "is_REML"))
48 B
> object_size(getME(mod, "n_rtrms"))
48 B
> object_size(getME(mod, "n_rfacs"))
48 B
> object_size(getME(mod, "N"))
256 B
> object_size(getME(mod, "n"))
256 B
> object_size(getME(mod, "p"))
256 B
> object_size(getME(mod, "q"))
256 B
> object_size(getME(mod, "p_i"))
408 B
> object_size(getME(mod, "l_i"))
408 B
> object_size(getME(mod, "q_i"))
408 B
> object_size(getME(mod, "mod"))
48 B
> object_size(getME(mod, "m_i"))
424 B
> object_size(getME(mod, "m"))
48 B
> object_size(getME(mod, "cnms"))
624 B
> object_size(getME(mod, "devcomp"))
2.21 kB
> object_size(getME(mod, "offset"))
3.2 MB
> get_obj_size(mod@resp, "RC")
[,1]
family 673355488
initialize 673355488
initialize#lmResp 673355488
ptr 673355488
resDev 673355488
updateMu 673355488
updateWts 673355488
wrss 673355488
eta 3196024
mu 3196024
n 3196024
offset 3196024
sqrtrwt 3196024
sqrtXwt 3196024
weights 3196024
wtres 3196024
y 3196024
Ptr 40
> get_obj_size(mod@pp, "RC")
[,1]
beta 449419408
initialize 449419408
initializePtr 449419408
ldL2 449419408
ldRX2 449419408
linPred 449419408
ptr 449419408
setTheta 449419408
sqrL 449419408
u 449419408
X 204549128
V 182171288
Ut 38448168
Zt 38448168
LamtUt 38353248
Xwts 3196024
RZX 1047176
Lambdat 38136
VtV 26192
delu 18408
u0 18408
Utr 18408
Lind 9224
beta0 496
delb 496
Vtr 496
theta 72
Ptr 40
最佳答案
现在发布为不完整的答案:
library("lme4")
gm1 <- glmer(cbind(incidence, size - incidence) ~ period + (1 | herd),
data = cbpp, family = binomial)
library("pryr")
object_size(gm1) ## 505 kB
get_obj_size <- function(obj,type="S4") {
fields <- switch(type,
S4=slotNames(obj),
RC=ls(obj))
get_field <- switch(type,
S4=function(x) slot(obj,x),
RC=function(x) obj[[x]])
field_list <- setNames(lapply(fields,get_field),fields)
cbind(sort(sapply(field_list,object_size),decreasing=TRUE))
}
get_obj_size(gm1)
## [,1]
## resp 356620 ## 'response module'
## pp 355420 ## 'predictor module'
## frame 6640
## optinfo 1748
## devcomp 1424
## call 1244
## flist 1232
## cnms 224
## u 152
## beta 56
## Gp 32
## lower 32
## theta 32
get_obj_size(gm1@resp,"RC")
## [,1]
## initialize 356620
## initialize#lmResp 356620
## ptr 356620
## resDev 356620
## setOffset 356620
## updateMu 356620
## updateWts 356620
## wrss 356620
## family 26016
## eta 472
## mu 472
## n 472
## offset 472
## sqrtrwt 472
## sqrtXwt 472
## weights 472
## wtres 472
## y 472
## Ptr 20
object_size(getME(model,component))
并遍历通过
eval(formals(getME)$name)
列出的组件;这与内部存储信息的方式不太精确,但会让您了解保存(例如)固定效应或随机效应模型矩阵需要多少空间。
lme4
Github:我不得不稍微修改
predict
函数以削弱对内部结构的依赖)。
glmer_chop <- function(object) {
newobj <- object
newobj@frame <- model.frame(object)[0,]
newobj@pp <- with(object@pp,
new("merPredD",
Lambdat=Lambdat,
Lind=Lind,
theta=theta,
u=u,u0=u0,
n=nrow(X),
X=matrix(1,nrow=nrow(X)),
Zt=Zt)) ## .sparseDiagonal(n,shape="g")))
newobj@resp <- new("glmResp",family=binomial(),y=numeric(0))
return(newobj)
}
get_obj_size(environment(fm2@pp$initialize),"RC")
fm1 <- glmer(use ~ urban+age+livch+(1|district), Contraception, binomial)
object_size(Contraception) ## 133 kB
object_size(fm1) ## 1.05 MB
object_size(fm2 <- glmer_chop(fm1)) ## 699 kB
get_obj_size(fm2) ## 'pp' is 547200 bytes
get_obj_size(fm2@pp,"RC") ## 'initialize' object is 547200
saveRDS(fm2,file="tmp.rds")
fm2 <- readRDS("tmp.rds")
object_size(fm2) ## 796 kB
rm(fm1)
pp <- predict(fm2,newdata=Contraception)
object_size(fm2) ## still 796K; no sharing
compare_size(fm2)
确认这里的大部分信息都存储在环境中,而不是对象本身(但我不知道
compare_size
/
object.size
如何处理引用类...)
关于减小 glmer 模型大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31359909/
我正在使用广义线性混合模型(glmer、lme4-package)用 R 分析我的二项式数据集。我想使用 Tukey 的事后测试(glht,multcomp-package)对某个固定效果(“声音”)
我是 R 新手,我正在使用 glmer 来拟合几个二项式模型,我只需要它们来调用 predict使用得到的概率。但是,我有一个非常大的数据集,即使只有一个模型的大小也会变得非常大: > library
我制作了一个模型,可以查看许多变量以及对怀孕结果的影响。结果是分组的二进制文件。一群动物有 34 只怀孕和 3 只空,接下来会有 20 只怀孕和 4 只空,以此类推。 我使用 glmer 对这些数据进
问题: 我有一个数据集,其中缺少一些预测变量值。我想将已应用于这些插补集的 glmer 模型汇集在一起。我使用 mice 包来创建插补(我也使用过 amelia 和 mi 但没有成功)。我想主要提
我正在测试不同生境和柱头类型的植物柱头上花粉粒数量的差异。 我的样本设计包括两个栖息地,每个栖息地有 10 个站点。 在每个地点,我有多达 3 种柱头类型(湿、干和半干),对于每种柱头类型,我有不同数
我有关于跨纬度感染特定宿主物种的病原体多样性的数据。设计涉及在不同纬度的4个地点的3个地点收集20个人,因此我有20个人,嵌套在3个地点内,嵌套在4个地点内。 鉴于我的病原体多样性数据是带有许多零的计
我一直在用我的(非 r-savvy)大脑来让 R 产生二项式 glmer 模型的正确预测的百分比。我知道这不是统计上的 super 信息,但经常被报道;所以我也想举报。 数据: 因变量:Tipo,它有
我正在使用 glmer 并且我希望提取随机效应(截距和斜率)的方差分量的标准偏差。 我试过使用: VarCorr(model) 它返回两个标准偏差值(加上相关性),但我只想提取截距和斜率 SD 值。
我正在尝试根据我的二项式数据运行的glmer模型随时间(x轴上的天数)预测值。 Total Alive和Total Dead是计数数据。这是我的模型,以及下面的相应步骤。 full.model.dre
我的变量是在一个带有二次抽样设计的随机块上测量的,其中我的处理是 23 次加入。我有 3 个完整的块和每块 6 个样本。示例数据帧有 4 个响应变量(LH、REN、FTT、DFR)、Accesion(
生态学中的一种常见情况是具有二元结果(0 = 死亡,1 = 存活)的生存模型,其中个体(在此示例中考虑鸟类的个体嵌套尝试)在面临死亡风险的天数方面存在差异。为了解决这个问题,我们使用修改后的逻辑回归,
我希望有人能帮助我。我正在尝试进行一项分析,检查在海拔梯度上捕获的膜翅目样本的数量。我想检查与海拔相关的单峰分布以及线性分布的可能性。因此,我将 I(Altitude^2) 作为分析中的解释变量。 我
我正在尝试通过 effect来自 effects 的函数与 (gl)merMod 一起打包来自 lme4 的对象包通过lapply循环并遇到我不期望的错误。看来effect函数无法在循环内查找对象。
我正在处理面板数据集并尝试运行具有固定效果的逻辑回归。 我发现 lme4 包和 bife 包中的 glmer 模型适合这种工作。 然而,当我对每个模型进行回归时,我没有得到相同的结果(估计值、标准误差
glmmPQL 中多重随机效应的语法是什么? 使用 glmer 我的代码如下所示: fit<- glmer(A~B+C+ (1 | D)+ (1 | E), family = gaussian, da
我正在使用 R 中的 lme4 的 glmer 函数分析数据(包括在下面)。我正在构建的模型包含一个泊松分布响应变量 (obs)、一个随机因子 (area)、一个连续偏移量 (duration ),
glmmPQL 中多重随机效应的语法是什么? 使用 glmer 我的代码如下所示: fit<- glmer(A~B+C+ (1 | D)+ (1 | E), family = gaussian, da
我正在使用 R 中的 lme4 的 glmer 函数分析数据(包括在下面)。我正在构建的模型包含一个泊松分布响应变量 (obs)、一个随机因子 (area)、一个连续偏移量 (duration ),
这可能更像是一个错误报告而不是一个问题,但是:为什么显式使用 newdata 参数来使用与训练数据相同的数据集进行预测有时会产生与省略 不同的预测>newdata 参数并明确使用训练数据集? libr
出于报告原因,我试图从 glmer 模型的 emmeans 获取自由度,但它们只显示 Inf。 这是一些示例数据。在真实数据中,没有嵌套结构,这只是我构建数据框的结果: set.seed(1234)
我是一名优秀的程序员,十分优秀!