r - 提取用于在 mgcv 中绘制平滑图的数据-6ren

r - 提取用于在 mgcv 中绘制平滑图的数据

转载作者：行者123 更新时间：2023-12-03 21:25:49

27

4

This thread从几年前开始描述了如何提取用于绘制拟合 Gam 模型平滑分量的数据。它有效，但仅当存在一个平滑变量时。我有不止一个平滑变量，不幸的是我只能从系列的最后一个中提取平滑。下面是一个例子:

library(mgcv)
a = rnorm(100)
b = runif(100)
y = a*b/(a+b)

mod = gam(y~s(a)+s(b))
summary(mod)

plotData <- list()
trace(mgcv:::plot.gam, at=list(c(25,3,3,3)), 
        #this gets you to the location where plot.gam calls plot.mgcv.smooth (see ?trace)
        #plot.mgcv.smooth is the function that does the actual plotting and
        #we simply assign its main argument into the global workspace
        #so we can work with it later.....
        quote({
                    #browser()
                    plotData <<- c(plotData, pd[[i]])
                }))
plot(mod,pages=1)
plotData

我正在尝试获得 a 的估计平滑函数和 b ，但列表 plotData只给我估计 b .我调查了 plot.gam 的内幕功能，我很难理解它是如何工作的。如果有人已经解决了这个问题，我将不胜感激。

最佳答案

更新了 mgcv >= 1.8-6 的答案

从 的 1.8-6 版开始mgcv , plot.gam()现在不可见地返回绘图数据(来自 ChangeLog):

plot.gam now silently returns a list of plotting data, to help advanced users (Fabian Scheipl) to produce custimized plot.

因此，并使用 mod从下面原始答案中显示的示例中，可以做到

> plotdata <- plot(mod, pages = 1)
> str(plotdata)
List of 2
 $ :List of 11
  ..$ x      : num [1:100] -2.45 -2.41 -2.36 -2.31 -2.27 ...
  ..$ scale  : logi TRUE
  ..$ se     : num [1:100] 4.23 3.8 3.4 3.05 2.74 ...
  ..$ raw    : num [1:100] -0.8969 0.1848 1.5878 -1.1304 -0.0803 ...
  ..$ xlab   : chr "a"
  ..$ ylab   : chr "s(a,7.21)"
  ..$ main   : NULL
  ..$ se.mult: num 2
  ..$ xlim   : num [1:2] -2.45 2.09
  ..$ fit    : num [1:100, 1] -0.251 -0.242 -0.234 -0.228 -0.224 ...
  ..$ plot.me: logi TRUE
 $ :List of 11
  ..$ x      : num [1:100] 0.0126 0.0225 0.0324 0.0422 0.0521 ...
  ..$ scale  : logi TRUE
  ..$ se     : num [1:100] 1.25 1.22 1.18 1.15 1.11 ...
  ..$ raw    : num [1:100] 0.859 0.645 0.603 0.972 0.377 ...
  ..$ xlab   : chr "b"
  ..$ ylab   : chr "s(b,1.25)"
  ..$ main   : NULL
  ..$ se.mult: num 2
  ..$ xlim   : num [1:2] 0.0126 0.9906
  ..$ fit    : num [1:100, 1] -0.83 -0.818 -0.806 -0.794 -0.782 ...
  ..$ plot.me: logi TRUE

其中的数据可用于自定义绘图等。

下面的原始答案仍然包含有用的代码，用于生成用于生成这些图的相同类型的数据。

原答案

有几种方法可以轻松做到这一点，并且都涉及在协变量范围内从模型进行预测。然而，诀窍是将一个变量保持在某个值(比如它的样本平均值)，同时在其范围内改变另一个。

这两种方法涉及:

预测数据的拟合响应，包括截距和所有模型项(其他协变量保持固定值)，或

从上面的模型预测，但返回每一项的贡献

其中的第二个更接近(如果不完全是) plot.gam做。

这是一些适用于您的示例并实现上述想法的代码。

library("mgcv")
set.seed(2)
a <- rnorm(100)
b <- runif(100)
y <- a*b/(a+b)
dat <- data.frame(y = y, a = a, b = b)

mod <- gam(y~s(a)+s(b), data = dat)

现在生成预测数据

pdat <- with(dat,
             data.frame(a = c(seq(min(a), max(a), length = 100),
                              rep(mean(a), 100)),
                        b = c(rep(mean(b), 100),
                              seq(min(b), max(b), length = 100))))

预测模型对新数据的拟合响应

这是子弹 1 从上面

pred <- predict(mod, pdat, type = "response", se.fit = TRUE)

> lapply(pred, head)
$fit
        1         2         3         4         5         6 
0.5842966 0.5929591 0.6008068 0.6070248 0.6108644 0.6118970 

$se.fit
       1        2        3        4        5        6 
2.158220 1.947661 1.753051 1.579777 1.433241 1.318022

然后您可以绘制 $fit反对 pdat 中的协变量- 虽然记得我有预测 b恒则持 a常数，所以在绘制拟合时只需要前 100 行 a或针对 b 的第二个 100 行.比如先加 fitted和 upper和 lower置信区间数据到预测数据的数据框

pdat <- transform(pdat, fitted = pred$fit)
pdat <- transform(pdat, upper = fitted + (1.96 * pred$se.fit),
                        lower = fitted - (1.96 * pred$se.fit))

然后使用行 1:100 绘制平滑用于变量 a和 101:200用于变量 b

layout(matrix(1:2, ncol = 2))
## plot 1
want <- 1:100
ylim <- with(pdat, range(fitted[want], upper[want], lower[want]))
plot(fitted ~ a, data = pdat, subset = want, type = "l", ylim = ylim)
lines(upper ~ a, data = pdat, subset = want, lty = "dashed")
lines(lower ~ a, data = pdat, subset = want, lty = "dashed")
## plot 2
want <- 101:200
ylim <- with(pdat, range(fitted[want], upper[want], lower[want]))
plot(fitted ~ b, data = pdat, subset = want, type = "l", ylim = ylim)
lines(upper ~ b, data = pdat, subset = want, lty = "dashed")
lines(lower ~ b, data = pdat, subset = want, lty = "dashed")
layout(1)

这产生

如果你想要一个通用的 y 轴比例，然后删除两个 ylim上面的几行，用以下内容替换第一行:

ylim <- with(pdat, range(fitted, upper, lower))

预测对各个平滑项的拟合值的贡献

中的想法2 上面的方法几乎相同，但我们要求 type = "terms" .

pred2 <- predict(mod, pdat, type = "terms", se.fit = TRUE)

这将返回 $fit 的矩阵和 $se.fit

> lapply(pred2, head)
$fit
        s(a)       s(b)
1 -0.2509313 -0.1058385
2 -0.2422688 -0.1058385
3 -0.2344211 -0.1058385
4 -0.2282031 -0.1058385
5 -0.2243635 -0.1058385
6 -0.2233309 -0.1058385

$se.fit
      s(a)      s(b)
1 2.115990 0.1880968
2 1.901272 0.1880968
3 1.701945 0.1880968
4 1.523536 0.1880968
5 1.371776 0.1880968
6 1.251803 0.1880968

只需绘制来自 $fit 的相关列来自 pdat 的相同协变量的矩阵，再次仅使用第一组或第二组 100 行。再次，例如

pdat <- transform(pdat, fitted = c(pred2$fit[1:100, 1], 
                                   pred2$fit[101:200, 2]))
pdat <- transform(pdat, upper = fitted + (1.96 * c(pred2$se.fit[1:100, 1], 
                                                   pred2$se.fit[101:200, 2])),
                        lower = fitted - (1.96 * c(pred2$se.fit[1:100, 1], 
                                                   pred2$se.fit[101:200, 2])))

然后使用行 1:100 绘制平滑用于变量 a和 101:200用于变量 b

layout(matrix(1:2, ncol = 2))
## plot 1
want <- 1:100
ylim <- with(pdat, range(fitted[want], upper[want], lower[want]))
plot(fitted ~ a, data = pdat, subset = want, type = "l", ylim = ylim)
lines(upper ~ a, data = pdat, subset = want, lty = "dashed")
lines(lower ~ a, data = pdat, subset = want, lty = "dashed")
## plot 2
want <- 101:200
ylim <- with(pdat, range(fitted[want], upper[want], lower[want]))
plot(fitted ~ b, data = pdat, subset = want, type = "l", ylim = ylim)
lines(upper ~ b, data = pdat, subset = want, lty = "dashed")
lines(lower ~ b, data = pdat, subset = want, lty = "dashed")
layout(1)

这产生

请注意此图与之前生成的图之间的细微差别。第一个图包括截距项的影响和来自 b 的均值的贡献。 .在第二个图中，只有 a 的平滑器的值显示。

关于r - 提取用于在 mgcv 中绘制平滑图的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15843654/

27

4

0

文章推荐： macros - 如何从预处理器宏创建字符串

文章推荐： Lambda 架构 - 这个名字的由来是什么？

文章推荐： oracle - ORA-12704 : character set mismatch

r - 为什么在 "mgcv::s"中使用 "gam(y ~ mgcv::s...)"会导致错误？
我想澄清并在行中使用 :: 表示法来拟合 mgcv::gam。在使用 mgcv::s 模型调用中的符号时，我偶然发现了一件事。具有可重现示例/错误的代码如下所示。原因可能是因为我在模型公式中使用了这
r - 为什么在不输入 "Arithmetic"的情况下键入 `?mgcv-faq`时，为什么要引用 `library(mgcv)`的手册页？
好吧，当我实际上犯了一个错误时，我就发现了这一点。我想获得mgcv.FAQ的手册页，但是我忘记做library(mgcv); 错误地放入了?mgcv-faq。但是，R奇怪地将我定向到doc页面，就
r - MGCV 获取设计矩阵
基于样条的 GAM 回归由以下成本函数定义: cost = ||y - S\beta ||^2 + scale * integral(|S''\beta|^2) 其中 S 是由样条定义的设计矩阵。在
r - mgcv 中基于张量积的高斯过程更平滑
我正在尝试运行一个 GAM 模型，其中使用高斯过程对 X 和 Y 之间的交互进行建模。在 mgcv 中使用默认平滑 (s()) 时，下面的代码工作正常，但我想用张量积 (te( )) 据我了解，te
r - mgcv:如何返回估计的平滑参数？
考虑如下简单的 GAM 拟合: library(mgcv) my.gam 0 && is.null(sm$no.rescale)) { maXX <- norm(sm$X, type = "
r - mgcv:如何返回估计的平滑参数？
考虑如下简单的 GAM 拟合: library(mgcv) my.gam 0 && is.null(sm$no.rescale)) { maXX <- norm(sm$X, type = "
r - mgcv:如何指定平滑和因子之间的交互？
在 R 中，我想用分类变量拟合 gam 模型。我想我可以这样做(cat 是分类变量)。 lm(data = df, formula = y ~ x1*cat + x2 + x3); 但我不能做这样的事
使用 mgcv gam 运行随机误差模型需要太多内存
我正在研究一个模型，其中包含多个 RE 和一个变量的样条，因此我尝试使用 gam() .但是，我遇到了内存耗尽限制错误(即使我在具有 128GB 的集群上运行它时也是如此)。即使我只用一个 RE
r - 提取用于在 mgcv 中绘制平滑图的数据
This thread从几年前开始描述了如何提取用于绘制拟合 Gam 模型平滑分量的数据。它有效，但仅当存在一个平滑变量时。我有不止一个平滑变量，不幸的是我只能从系列的最后一个中提取平滑。下面是一个例
r - 如何设置 mgcv 基本尺寸的最小值？
使用 mgcv 的惩罚样条，我希望在示例数据中获得 10/年的有效自由度 (EDF)(整个周期为 60)。 library(mgcv) library(dlnm) df = '1995-01-01')
r - mgcv:如何设置样条线的结的数量和/或位置
我想在 mgcv 包中使用函数 gam: x 结的位置对于惩罚回归样条线，确切的位置并不重要，只要: k 足够大；结的分布具有良好、合理的覆盖范围。默认情况下: 自然三次回归样条bs = '
r - R::mgcv 中张量相互作用的方差分量
为什么 mgcv::gam.vcomp 显示与 mgcv::ti 进行的交互的两个方差分量？我似乎无法在任何地方找到解释或字里行间的解释。方差是否可能归因于交互中的每个组件？ require(mgc
r - 使用 mgcv::gam 进行非标准评估
我正在制作一个函数，它将对回归函数的未评估调用作为输入，创建一些数据，然后评估调用。这是一个例子: library(lme4) compute_fit Loading required packag
r - 是否可以在 mgcv gam 模型中包含两个平滑项的乘积
我使用 gam 对时间序列数据的季节性建模取得了巨大成功。除了季节性变化之外，我的最新模型清楚地显示了每周模式。虽然每周模式本身在一年中非常稳定，但其幅度也随季节变化。所以理想情况下，我想将我的数据建
r - mgcv:如何使用 Tweedie 响应模型进行逐步回归？
有谁知道如何在 R 中使用 Tweedie 进行逐步回归？我找到了 mgcv 包，它显然将 Tweedie 的功率参数视为另一个要估计的参数。这似乎改进了必须使用 tweedie.profile 来
R gam 和 mgcv 之间的包冲突？
在 R 中分离包并不是一个好的做法(请参阅?detach)，但由于某些原因，我必须在包 gam 和mgcv。一旦 mgcv 被附加和分离(并且卸载命名空间中的所有依赖项!)，gam 的函数会产生一些奇
r - 如何从 GAM (`mgcv::gam` 中提取拟合样条)
我正在使用 GAM 对逻辑回归中的时间趋势进行建模。然而，我想从中提取拟合样条线以将其添加到另一个无法在 GAM 或 GAMM 中拟合的模型中。因此我有两个问题: 我怎样才能随着时间的推移拟合更平滑
r - R 包 mgcv 是否存在已知的兼容性问题？是否有兼容性的一般规则？
我使用 R 版本 2.15.1 (2012-06-22) 和 mgcv 版本 1.7-22 我在 R 中加载以下一组包: library(sqldf) library(timeDate) librar
r - 自定义链接功能适用于 GLM 但不适用于 mgcv GAM
如果答案很明显，我深表歉意，但我花了很多时间尝试在 mgcv.gam 中使用自定义链接功能简而言之，我想使用包 psyphy 中经过修改的 probit 链接(我想用psyphy.probit_2
r - 导入 mgcv 失败，因为找不到 Rlapack.dll
我想使用 R.NET 链接到 IronPython 中的 R 统计包图书馆。它一直工作正常，但现在我需要使用 R 的 mgcv图书馆。进口mgcv失败(导入使用命令 rdn.r.EagerEvalu

首页

博学

6Ren·AI

商城

r - 提取用于在 mgcv 中绘制平滑图的数据