- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
问题标题说明了一切,计算控制所有其他变量的矩阵的每一列之间的成对偏相关的最有效方法是什么?
基本上,类似于下面的 cor
函数,但会产生偏相关而不是简单相关。
#> cor(iris[,-5])
# Sepal.Length Sepal.Width Petal.Length Petal.Width
#Sepal.Length 1.0000000 -0.1175698 0.8717538 0.8179411
#Sepal.Width -0.1175698 1.0000000 -0.4284401 -0.3661259
#Petal.Length 0.8717538 -0.4284401 1.0000000 0.9628654
#Petal.Width 0.8179411 -0.3661259 0.9628654 1.0000000
结果应该与我们使用 ppcor
库获得的结果相匹配:
#> ppcor::pcor(iris[,-5])$estimate
# Sepal.Length Sepal.Width Petal.Length Petal.Width
#Sepal.Length 1.0000000 0.6285707 0.7190656 -0.3396174
#Sepal.Width 0.6285707 1.0000000 -0.6152919 0.3526260
#Petal.Length 0.7190656 -0.6152919 1.0000000 0.8707698
#Petal.Width -0.3396174 0.3526260 0.8707698 1.0000000
最佳答案
我们知道控制每个其他变量的成对偏相关可以通过在 O(n^3) 时间内求逆相关或协方差矩阵(参见 here )获得。所以一个可能的解决方案很简单:
pcor.solve = function(x){
res = solve(cov(x))
res = -res/sqrt(diag(res) %o% diag(res))
diag(res) = 1
return(res)
}
这基本上是 ppcor::pcor
的精简版。结果是:
pcor.solve(iris[,-5])
# Sepal.Length Sepal.Width Petal.Length Petal.Width
#Sepal.Length 1.0000000 0.6285707 0.7190656 -0.3396174
#Sepal.Width 0.6285707 1.0000000 -0.6152919 0.3526260
#Petal.Length 0.7190656 -0.6152919 1.0000000 0.8707698
#Petal.Width -0.3396174 0.3526260 0.8707698 1.0000000
但是请注意,协方差矩阵(或相关矩阵,结果相同)必须是正定的。
由于这主要是为了进行有效的反转操作,所以我在 stats.SE 中查看了这个线程. qr.solve
和 chol2inv
可以用在协方差矩阵中达到同样的效果。
pcor.qr = function(x){
res = qr.solve(cov(x))
res = -res/sqrt(diag(res) %o% diag(res))
diag(res) = 1
dimnames(res)[[1]] = dimnames(res)[[2]] = colnames(x)
return(res)
}
pcor.qr(iris[,-5])
# Sepal.Length Sepal.Width Petal.Length Petal.Width
#Sepal.Length 1.0000000 0.6285707 0.7190656 -0.3396174
#Sepal.Width 0.6285707 1.0000000 -0.6152919 0.3526260
#Petal.Length 0.7190656 -0.6152919 1.0000000 0.8707698
#Petal.Width -0.3396174 0.3526260 0.8707698 1.0000000
pcor.chol = function(x){
res = chol2inv(chol(cov(x)))
res = -res/sqrt(diag(res) %o% diag(res))
diag(res) = 1
dimnames(res)[[1]] = dimnames(res)[[2]] = colnames(x)
return(res)
}
pcor.chol(iris[,-5])
# Sepal.Length Sepal.Width Petal.Length Petal.Width
#Sepal.Length 1.0000000 0.6285707 0.7190656 -0.3396174
#Sepal.Width 0.6285707 1.0000000 -0.6152919 0.3526260
#Petal.Length 0.7190656 -0.6152919 1.0000000 0.8707698
#Petal.Width -0.3396174 0.3526260 0.8707698 1.0000000
也可以用SVD来求解。如果我们有一个正定方阵,它的 SVD 分解是 A = UDU^T,它的逆就是 A^-1 = UD^-1U^T。
pcor.svd = function(x){
res = svd(cov(x))
res = res$v %*% diag(1/res$d) %*% t(res$v)
res = -res/sqrt(diag(res) %o% diag(res))
diag(res) = 1
dimnames(res)[[1]] = dimnames(res)[[2]] = colnames(x)
return(res)
}
pcor.svd(iris[,-5])
# Sepal.Length Sepal.Width Petal.Length Petal.Width
#Sepal.Length 1.0000000 0.6285707 0.7190656 -0.3396174
#Sepal.Width 0.6285707 1.0000000 -0.6152919 0.3526260
#Petal.Length 0.7190656 -0.6152919 1.0000000 0.8707698
#Petal.Width -0.3396174 0.3526260 0.8707698 1.0000000
microbenchmark
10000 次重复:
library(microbenchmark)
#iris
dt1 = iris[,-5]
microbenchmark(
ppcor = ppcor::pcor(dt1)$estimate,
solve = pcor.solve(dt1),
qr = pcor.qr(dt1),
chol = pcor.chol(dt1),
svd = pcor.svd(dt1),
times = 10000L)
#Unit: microseconds
# expr min lq mean median uq max neval cld
# ppcor 247.728 267.790 314.8356 280.853 296.248 196962.601 10000 c
# solve 176.816 198.743 217.1298 205.274 221.603 2425.964 10000 b
# qr 240.264 258.459 282.7005 270.123 285.518 4015.438 10000 c
# chol 131.562 148.824 163.3567 154.423 167.019 1593.205 10000 a
# svd 179.615 199.675 219.2781 208.074 223.469 1920.710 10000 b
#random data
dt2 = cbind(rnorm(1E4), rnorm(1E4)+2)
microbenchmark(
ppcor = ppcor::pcor(dt2)$estimate,
solve = pcor.solve(dt2),
qr = pcor.qr(dt2),
chol = pcor.chol(dt2),
svd = pcor.svd(dt2),
times = 10000L)
#Unit: microseconds
# expr min lq mean median uq max neval cld
# ppcor 243.063 267.323 306.4535 284.585 311.177 1833.936 10000 d
# solve 180.548 190.812 222.6685 198.277 216.004 84776.704 10000 a
# qr 229.068 248.662 282.8142 262.658 285.518 1954.301 10000 c
# chol 179.148 189.413 212.6551 198.277 216.005 1383.733 10000 a
# svd 213.672 230.933 262.5084 243.529 264.058 5261.543 10000 b
#uncorrelated data
dt3 = cbind(sin(seq(0, 2*pi, length.out = 1000L)), cos(seq(0, 2*pi, length.out = 1000L)))
microbenchmark(
ppcor = ppcor::pcor(dt3)$estimate,
solve = pcor.solve(dt3),
qr = pcor.qr(dt3),
chol = pcor.chol(dt3),
svd = pcor.svd(dt3),
times = 10000L)
#Unit: microseconds
# expr min lq mean median uq max neval cld
# ppcor 142.759 162.354 188.7767 172.1500 191.745 2230.021 10000 d
# solve 80.711 89.108 102.8269 92.3740 101.704 1709.372 10000 a
# qr 130.629 145.092 168.0627 153.0220 169.351 4914.910 10000 c
# chol 79.777 87.709 102.2984 92.3740 101.238 6731.117 10000 a
# svd 112.901 127.363 147.1913 134.1285 148.358 1401.928 10000 b
[UPDATED] 或者,换句话说,chol
<solve
<svd
<qr
<ppcor
现在。由于协方差矩阵是对称的(chol
解决方案已经使用了这个事实)这一事实可能会加快一些速度,并且在协方差计算中也可以获得时间。
当然,ppcor
库更通用,可以处理协方差矩阵不可逆等情况,因此在比较中处于劣势。尽管当要详尽地计算偏相关并且知道协方差矩阵是正定的时,我们也可以证明有更简单的解决方案是可取的。
关于r - 计算基 R 中成对偏相关的最有效方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39427825/
我正在从 Stata 迁移到 R(plm 包),以便进行面板模型计量经济学。在 Stata 中,面板模型(例如随机效应)通常报告组内、组间和整体 R 平方。 I have found plm 随机效应
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
我想要求用户输入整数值列表。用户可以输入单个值或一组多个值,如 1 2 3(spcae 或逗号分隔)然后使用输入的数据进行进一步计算。 我正在使用下面的代码 EXP <- as.integer(rea
当 R 使用分类变量执行回归时,它实际上是虚拟编码。也就是说,省略了一个级别作为基础或引用,并且回归公式包括所有其他级别的虚拟变量。但是,R 选择了哪一个作为引用,以及我如何影响这个选择? 具有四个级
这个问题基本上是我之前问过的问题的延伸:How to only print (adjusted) R-squared of regression model? 我想建立一个线性回归模型来预测具有 15
我在一台安装了多个软件包的 Linux 计算机上安装了 R。现在我正在另一台 Linux 计算机上设置 R。从他们的存储库安装 R 很容易,但我将不得不使用 安装许多包 install.package
我正在阅读 Hadley 的高级 R 编程,当它讨论字符的内存大小时,它说: R has a global string pool. This means that each unique strin
我们可以将 Shiny 代码写在两个单独的文件中,"ui.R"和 "server.R" , 或者我们可以将两个模块写入一个文件 "app.R"并调用函数shinyApp() 这两种方法中的任何一种在性
我正在使用 R 通过 RGP 包进行遗传编程。环境创造了解决问题的功能。我想将这些函数保存在它们自己的 .R 源文件中。我这辈子都想不通怎么办。我尝试过的一种方法是: bf_str = print(b
假设我创建了一个函数“function.r”,在编辑该函数后我必须通过 source('function.r') 重新加载到我的全局环境中。无论如何,每次我进行编辑时,我是否可以避免将其重新加载到我的
例如,test.R 是一个单行文件: $ cat test.R # print('Hello, world!') 我们可以通过Rscript test.R 或R CMD BATCH test.R 来
我知道我可以使用 Rmd 来构建包插图,但想知道是否可以更具体地使用 R Notebooks 来制作包插图。如果是这样,我需要将 R Notebooks 编写为包小插图有什么不同吗?我正在使用最新版本
我正在考虑使用 R 包的共享库进行 R 的站点安装。 多台计算机将访问该库,以便每个人共享相同的设置。 问题是我注意到有时您无法更新包,因为另一个 R 实例正在锁定库。我不能要求每个人都关闭它的 R
我知道如何从命令行启动 R 并执行表达式(例如, R -e 'print("hello")' )或从文件中获取输入(例如, R -f filename.r )。但是,在这两种情况下,R 都会运行文件中
我正在尝试使我当前的项目可重现,因此我正在创建一个主文档(最终是一个 .rmd 文件),用于调用和执行其他几个文档。这样我自己和其他调查员只需要打开和运行一个文件。 当前设置分为三层:主文件、2 个读
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 想改进这个问题?将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
我的 R 包中有以下描述文件 Package: blah Title: What the Package Does (one line, title case) Version: 0.0.0.9000
有没有办法更有效地编写以下语句?accel 是一个数据框。 accel[[2]]<- accel[[2]]-weighted.mean(accel[[2]]) accel[[3]]<- accel[[
例如,在尝试安装 R 包时 curl作为 usethis 的依赖项: * installing *source* package ‘curl’ ... ** package ‘curl’ succes
我想将一些软件作为一个包共享,但我的一些脚本似乎并不能很自然地作为函数运行。例如,考虑以下代码块,其中“raw.df”是一个包含离散和连续类型变量的数据框。函数“count.unique”和“squa
我是一名优秀的程序员,十分优秀!