rstudent() 为 "mlm"返回不正确的结果(装有多个 LHS 的线性模型)-6ren

rstudent() 为 "mlm"返回不正确的结果(装有多个 LHS 的线性模型)

转载作者：行者123 更新时间：2023-12-02 08:11:47

25

4

我知道对具有多个 LHS 的线性模型的支持是有限的。但是当可以在“mlm”对象上运行一个函数时，我希望结果是可信的。使用 rstudent 时，会产生奇怪的结果。这是一个错误还是有其他解释？

在下面的示例中，fittedA 和 fittedB 是相同的，但在 rstudent 的情况下，第二列不同。

y <- matrix(rnorm(20), 10, 2)
x <- 1:10
fittedA <- fitted(lm(y ~ x))
fittedB <- cbind(fitted(lm(y[, 1] ~ x)), fitted(lm(y[, 2] ~ x)))
rstudentA <- rstudent(lm(y ~ x))
rstudentB <- cbind(rstudent(lm(y[, 1] ~ x)), rstudent(lm(y[, 2] ~ x)))

最佳答案

设置

set.seed(0)
y <- matrix(rnorm(20), 10, 2)
x <- 1:10
fit <- lm(y ~ x)           ## class: "mlm", "lm"
fit1 <- lm(y[, 1] ~ x)     ## class: "lm"
fit2 <- lm(y[, 2] ~ x)     ## class: "lm"

rstudent(fit)
#          [,1]        [,2]
#1   0.74417620  0.89121744
#2  -0.67506054 -0.50275275
#3   0.76297805 -0.74363941
#4   0.71164461  0.01075898
#5   0.03337192  0.03355209
#6  -1.75099724 -0.02701558
#7  -1.05594284  0.56993056
#8  -0.48486883 -0.35286612
#9  -0.23468552  0.79610101
#10  2.90701182 -0.93665406

cbind(rstudent(fit1), rstudent(fit2))
#          [,1]        [,2]
#1   0.74417620  1.90280959
#2  -0.67506054 -0.92973971
#3   0.76297805 -1.47237918
#4   0.71164461  0.01870820
#5   0.03337192  0.06042497
#6  -1.75099724 -0.04056992
#7  -1.05594284  1.02171222
#8  -0.48486883 -0.64316472
#9  -0.23468552  1.69605079
#10  2.90701182 -1.25676088

如您所见，rstandard(fit) 仅正确返回第一个响应的结果。

为什么 `rstudent` 在“mlm”上失败

问题是，rstudent 没有“mlm”方法。

methods(rstudent)
#[1] rstudent.glm* rstudent.lm*

当您调用 rstudent(fit) 时，S3 方法调度机制会找到 rstudent.lm，因为 inherits(fit, "lm") 为 真。不幸的是，stats:::rstudent.lm 没有对“mlm”模型进行正确的计算。

stats:::rstudent.lm
#function (model, infl = lm.influence(model, do.coef = FALSE), 
#    res = infl$wt.res, ...) 
#{
#    res <- res/(infl$sigma * sqrt(1 - infl$hat))
#    res[is.infinite(res)] <- NaN
#    res
#}

lm.influence 没有为“mlm”提供正确的 sigma。底层 C 例程 C_influence 仅计算“lm”的 sigma。如果您给 lm.influence 一个“mlm”，则只返回第一个响应变量的结果。

## pass in "mlm"
.Call(stats:::C_influence, fit$qr, FALSE, residuals(fit), 10 * .Machine$double.eps)$sigma
# [1] 1.3130265 1.3216357 1.3105706 1.3171621 1.3638689 1.1374385 1.2668101
# [8] 1.3416338 1.3586428 0.9180828

## pass in "lm"
.Call(stats:::C_influence, fit1$qr, FALSE, residuals(fit1), 10 * .Machine$double.eps)$sigma
# [1] 1.3130265 1.3216357 1.3105706 1.3171621 1.3638689 1.1374385 1.2668101
# [8] 1.3416338 1.3586428 0.9180828

显然，对于“mlm”，sigma 应该是一个矩阵。现在给出这个不正确的 sigma，"recycling rule"应用在 stats:::rstudent.lm 下一行的 "/" 后面，因为它左边的 res(残差)是一个矩阵，但它右边的东西是一个向量。

res <- res / (infl$sigma * sqrt(1 - infl$hat))

实际上，计算结果只对第一个响应变量是正确的；所有其余响应变量都将使用错误的 sigma。

R核心团队需要修补一些诊断功能

请注意，文档页面 ?influence.measures 中列出的几乎所有函数对于“mlm”都是错误的。他们应该发出警告说“传销”方法尚未实现。

lm.influnce 需要在 C 级打补丁。一旦完成，rstudent.lm 就会在“mlm”上正常工作。

其他函数可以很容易地在 R 级别进行修补，例如，stats:::cooks.distance.lm 和 stats:::rstandard。目前 (R 3.5.1) 它们是:

stats:::cooks.distance.lm
#function (model, infl = lm.influence(model, do.coef = FALSE), 
#    res = weighted.residuals(model),
#    sd = sqrt(deviance(model)/df.residual(model)), 
#    hat = infl$hat, ...) 
#{
#    p <- model$rank
#    res <- ((res/(sd * (1 - hat)))^2 * hat)/p
#    res[is.infinite(res)] <- NaN
#    res
#}

stats:::rstandard.lm
#function (model, infl = lm.influence(model, do.coef = FALSE), 
#    sd = sqrt(deviance(model)/df.residual(model)), type = c("sd.1", 
#        "predictive"), ...) 
#{
#    type <- match.arg(type)
#    res <- infl$wt.res/switch(type, sd.1 = sd * sqrt(1 - infl$hat), 
#        predictive = 1 - infl$hat)
#    res[is.infinite(res)] <- NaN
#    res
#}

并且它们可以被修补(通过使用outer)

patched_cooks.distance.lm <-
function (model, infl = lm.influence(model, do.coef = FALSE), 
    res = weighted.residuals(model),
    sd = sqrt(deviance(model)/df.residual(model)), 
    hat = infl$hat, ...) 
{
    p <- model$rank
    res <- ((res / c(outer(1 - hat, sd))) ^ 2 * hat) / p
    res[is.infinite(res)] <- NaN
    res
}

patched_rstandard.lm <- 
function (model, infl = lm.influence(model, do.coef = FALSE), 
    sd = sqrt(deviance(model)/df.residual(model)), type = c("sd.1", 
        "predictive"), ...) 
{
    type <- match.arg(type)
    res <- infl$wt.res/switch(type, sd.1 = c(outer(sqrt(1 - infl$hat), sd)), 
        predictive = 1 - infl$hat)
    res[is.infinite(res)] <- NaN
    res
}

快速测试:

oo <- cbind(cooks.distance(fit1), cooks.distance(fit2))  ## correct result
all.equal(cooks.distance(fit), oo)
#[1] "Mean relative difference: 0.8211302"
all.equal(patched_cooks.distance.lm(fit), oo)
#[1] TRUE

rr <- cbind(rstandard(fit1), rstandard(fit2))  ## correct result
all.equal(rstandard(fit), rr)
#[1] "Mean relative difference: 0.5290036"
all.equal(patched_rstandard.lm(fit), rr)
#[1] TRUE

关于rstudent() 为 "mlm"返回不正确的结果(装有多个 LHS 的线性模型)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46234857/

25

4

0

文章推荐： elixir - 惯用的 Elixir 按特定的非空键值过滤 map 列表？

文章推荐： json - Azure ARM 模板 - 使用数组变量

文章推荐： android - 带有 React Native 的 Nox 模拟器

文章推荐： r - 将基于模式匹配的参数传递给 R 中的函数

Python 赋值给条件 LHS
我知道 a = val1 if condition else val2 但是有没有办法做类似的事情 a if condition else b = val 抛出一个SyntaxError(我想这是可以
c++ - 你为什么要施放作业的 lhs ？
我遇到了一些归结为以下内容的代码: enum BAR { /* enum values omitted */ } class Foo{ public: void set(const BAR& ba
r - 拟合具有多个 LHS 的线性模型
我是 R 新手，我想用 *apply 改进以下脚本函数(我已经阅读了 apply ，但我无法使用它)。我想用lm在多个自变量(数据框中的列)上运行。我用了 for (i in (1:3) { as
java - 我们可以在作业的 LHS 上构建和使用字符串吗？
我知道要问这种有趣的问题。我想知道这是否可以做到？ Class foo { public static void main(String [] args){ for (int i=0; i = new
python - 为什么我不能分配给命名表达式(LHS 海象运算符)？
分配给表达式(而不是名称)在 Python 中很常见。例如，这是完全有效的语法: my.object["with_some"].very_long["expression"] = func(my.ob
r - 在一行中为 LHS 分配多个新变量
我想在 R 中的一行中分配多个变量。可以这样做吗？ values # initialize some vector of values (a, b) = values[c(2,4)] # assign
C 指针值 - LHS 值发生意外变化
以下程序的输出未给出预期结果: #include int main() { int *x; int *y; *x = 10; *y = 45; printf
java - 在流口水中使用 LHS 的辅助方法
我正在学习流口水并试图了解最佳实践。之间有什么实际区别: when $event : Event(Helper.notNull(foo),...) 和 when $event : Ev
java - 字符串文字应该在 LHS 上
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 7 年前。 Improve
lhs 上的 C++ 模板和函数
给出以下类: template class table2D { ... public: bool copy(int r, int c, int rows , int cols, ta
c++ - 当函数返回引用写在 LHS 上时无法预测输出
我知道以下关于引用例如。 int &ref=x;然后 ref 和 x 是内存中相同位置的名称。与指针不同，内存不是为引用分配的。我正在使用我成功编写的引用在 C++ 中编写一个简单的交换程序。然
python - 实现 LHS 不是二进制的蕴涵？
尝试在 Python + Gurobi 中实现指标约束，其中指标(LHS)是二元决策变量的总和。嗨，我想在 Python + Gurobi 中实现以下功能: Y_i_d and U_d are bi
c++ - 在逗号运算符的 LHS 中初始化匿名互斥锁持有类实例
假设我有这样的代码: #include "boost/thread/mutex.hpp" using boost::mutex; typedef mutex::scoped_lock lock; mu
c++ - 成员访问运算符的 lhs 求值与其参数的副作用之间是否存在先序关系？
这个问题在这里已经有了答案: In f(x), can x be evaluated before f? (2 个答案) 关闭 5 年前。我已阅读 Order of evalution来自cppr
c++ - 抛出异常后的 LHS 状态
我正在学习 C++ 异常，我想对场景进行一些说明: T function() throw(std::exception); ... T t = value; try { t = function();
wolfram-mathematica - Mathematica 降值 Lhs
有谁知道 Mathematica 中是否有一个内置函数来获取降值规则的 lhs(没有任何持有)？我知道如何编写代码来做到这一点，但对于内置的例如: a[1]=2; a[2]=3; BuiltInID
haskell - LHS 和 Markdown : Codeblocks
我碰巧真的很喜欢 Markdown(可能是因为 SO)而且我喜欢用 Haskell 编程。我最近发现了Literate Haskell (LHS) 我想同时使用 Markdown 和 LHS。让我给你
R规则: Extract lhs items from rules
我想从 arules 生成的规则中提取 lhs 项。例如， {a,b,c} => {d} 我希望能够提取 a,b,c 并将其放入字符向量中，以便我可以根据这些项目进行迭代和进一步处理。目前，我可以
javascript - RHS 分配优于 LHS 操作
sap.ui.core.Control.extend("control.linechart", { /* the control API */ metadata : {
CLIPS LHS 绑定(bind)变量
我正在尝试编写一个使用迭代深化算法来解决规划问题的 CLIPS 程序。出于同样的原因，我想保持较低的分支因子。在以下代码中?s是表示树的级别的变量；我想使用一个规则来进行不同的检查。这就是我试图做的

首页

博学

6Ren·AI

商城