- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我在大型数据集上估算一个非常简单的模型。公式看起来像
scam::scam(formula = ratio ~ s(rate,bs="mpi"))
然后使用这些模型为新数据生成预测。我不关心模型的任何其他内容。
我的问题是返回的对象很大(几 GB),这往往会导致下游出现问题。
我相信这是因为 scam 和 gam 保存了数百万条记录中每条记录的拟合值。
有没有办法只保存一个包含预测新数据所需的最小对象的小对象?这不应大于几千字节。
非常感谢!
edit1:这里有一个可重现的例子来展示我对 Gavin 的回答的理解:
library(mgcv)
data(iris)
library(tidyverse)
mydb <- iris %>% filter(Species == "setosa")
dim(mydb) # 50 records
model <- mgcv::gam(formula = Sepal.Length ~ s(Sepal.Width,bs="cs"),
data = mydb)
print(object.size(model), units = "KB") # 78 KB
distinct_mydb <- mydb %>% distinct(Sepal.Width) # 16 distinct values for the independent variables
Xp <- predict(model, newdata= distinct_mydb, type = "lpmatrix")
coefs <- coef(model)
dim(Xp) # 16 records and 10 columns (one for each of the 10 knots of the spline?)
preds1 <- Xp %*% coefs %>% t()
preds2 <- predict(model, newdata= distinct_mydb) # preds 1 and preds2 are identical
print(object.size(Xp), units = "KB") # 3.4 Kb
print(object.size(coefs), units = "KB") # 1.1 Kb
在这个解决方案中,我将保存“Xp”(3.4 Kb)和“coefs”(1.1Kb)总共 4.5 Kb,而不是保存占用 78 Kb 的“模型”
我不确定下周如何使用 Xp 和系数来预测 Sepal.Length 之前从未见过的 Sepal.Width 为 2.5 的花?
edit2:答案是否简单地生成所有可能的 Sepal.Width 的网格(四舍五入到某个小数点),然后将此表与任何 future 数据左连接?
fake_db <- data.frame(Sepal.Width = seq(0,max(mydb$Sepal.Width), by = 0.1))
fake_db$predicted_Sepal.Length = predict(model, newdata = fake_db)
print(object.size(fake_db), units = "KB") # 4.3 Kb
最佳答案
查看 ?mgav:::predict.gam
和参数 type
的信息,尤其是 "lpmatrix"
。
例如,您只需要系数向量和
的输出predict(model, newdata, type = "lpmatrix")`
其中 newdata
是原始数据的一个小得多的子集,但覆盖了协变量的范围。
此选项 "lpmatrix"
设计用于下游或 R 之外。一般的想法是给定 "lpmatrix"
作为 Xp
然后 Xp %*% coef(model)
给出拟合值。但是,由于您可以通过 newdata
减小 Xp
的大小,因此您可以减少预测所需对象的维数。
关于r - 保存适合的 gam 对象时节省空间(mgcv::gam 和 scam::scam),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54120491/
我想在 GAMS 模型中找到我的错误。我没有任何错误,但我的模型效果不佳 GAMS 中是否有任何调试工具?(如其他软件中的调试器工具,例如 MATLAB) 最好的事物 最佳答案 不幸的是,我没有遇到任
我正在使用 GAM 对逻辑回归中的时间趋势进行建模。然而,我想从中提取拟合样条线以将其添加到另一个无法在 GAM 或 GAMM 中拟合的模型中。 因此我有两个问题: 我怎样才能随着时间的推移拟合更平滑
我在 ggplot2 中使用 stat_smooth 函数,决定我想要“拟合优度”,并为此使用了 mgvc gam。我突然想到我应该检查以确保它们是相同的模型(stat_smooth vs mgvc
我在大型数据集上估算一个非常简单的模型。公式看起来像 scam::scam(formula = ratio ~ s(rate,bs="mpi")) 然后使用这些模型为新数据生成预测。我不关心模型的任
我的数据框看起来像: head(bush_status) distance status count 0 endemic 844 1 exotic 8
我正在对过去大约 40 年中零星收集的物种计数数据与一系列环境预测因子进行建模。目前,我的 GAM 是这样的: k = gam(CountIndividuals ~ s(Date, bs = 'cr'
我使用 gam 拟合了广义加性模型来自 mgcv包裹。我有一个数据表,其中包含我的因变量 Y , 自变量 X , 其他自变量 Oth和一个两级因子 Fac .我想适合以下型号 Y ~ s(X) + O
我在 GMAS 中编写我的 MIP 模型,求解器表明我的模型中有 1535272 行、3287490 列和 8425140 个非零(我不确定它对于 GAMS 来说是否太大)。经过 899677 次迭代
我的数据集有许多冗余观测值(但每个观测值都应该被计数)。因此我考虑在 GAM 中使用“权重”选项,因为它可以显着减少计算时间。 gam函数(在 mgcv 包中)解释说它们是“等价的”(来自参数 ?ga
我无法理解为什么收到此错误。我的两个变量都是数字且长度相同,当变量不相同时,我用NA调整数据。但是我仍然收到一个错误,我的响应变量超出范围 year 0))>=5) # If at least
我有3套,我想知道哪个元素不属于 对称差集。 Set1={1*125} 组2={20*450} Set3={45*235} 我用 SymAB 显示了 setA 和 set B 的对称差异。 我计算 s
我不明白为什么下面的两个 gam 模型会产生不同的结果。唯一的区别是在其中一个模型中,我在函数 gam 和 s 之前添加了命名空间说明符 gam::。 我想这样做是因为我正在探索在 gam 包和 mg
我正在对涉及两个拟合步骤的物种分布数据进行障碍类型分析。第一步是使用 family=quasibinomial 的所有数据对 (m1) 存在/不存在数据建模。第二步 (m2) 是使用 family=G
问题移至 CrossValidated 我试图表达 gam 中两个类别之间“增长速度”的差异造型。我的数据表示随着时间的推移 [0-100%] 的累积值,但我希望(为了与其他研究的可比性)以年度值来表
我有一个 gam我所知道的模型在 R 中运行良好,但是当我尝试“train ”使用 caret 相同的模型时package 它返回一个错误,指出输入数据列是列表。有没有人明白这一点? 我正在运行的代码
我有一个非常简单的时间序列数据集,由单个变量(“AVERAGE”)的年平均值组成。我希望研究时间序列的“趋势”分量的变化率(一阶导数)和加速度(二阶导数)以及相关的标准误差。我使用MGCV的GAM和P
我使用 gam 在负二项式族中拟合广义加性模型来自 mgcv包裹。我有一个包含因变量 y 的数据框, 自变量 x , 一个因素 fac和一个随机变量 ran .我适合以下模型 gam1 sum(r
我正在阅读“R 中的应用程序统计学习简介”(ISLR),我被困在第 295 页的一部分,即广义加法模型实验室。当我运行以下代码时,我得到一个错误 Error in plot.gam(gam1, se
我正在研究一个模型,其中包含多个 RE 和一个变量的样条,因此我尝试使用 gam() .但是,我遇到了内存耗尽限制错误(即使我在具有 128GB 的集群上运行它时也是如此)。即使我只用一个 RE
从这个数据: UQdata MudUQ Estuary Site 7.00 10.9 NoriPau A 6.00 13.9 NoriPau A 5.00
我是一名优秀的程序员,十分优秀!