r - 计算多个变量的多个组之间的倍数变化的快速而优雅的方法？-6ren

r - 计算多个变量的多个组之间的倍数变化的快速而优雅的方法？

转载作者：行者123 更新时间：2023-12-01 02:06:08

出于好奇，我一直在玩几种计算折叠变化的方法，我试图找到最快和最优雅的方法来做到这一点(希望这也是相同的解决方案)。

我感兴趣的矩阵类型如下所示:

# Some data
nvars <- 10000
nsamples <- 500
sample_groups <- 5
MAT <- replicate(nvars, runif(n=nsamples))

和一个看起来像这样的分组向量:

f <- rep_len(1:sample_groups, nsamples)
f <- LETTERS[f]

我最终希望从上述输入中得到一个 10 x 10,000 的矩阵，其中 f 中的每个级别组合都有一行。

为此，第一个任务是计算所有列的每个组的平均值。
我想出了 4 种可能的方法来做到这一点:

# Settings
aggr_FUN  <- mean
combi_FUN <- function(x,y) "/"(x,y) 

# helper function
pasteC <- function(x,y) paste(x,y,sep=" - ")

#A1. Loop
system.time({
f_un <- unique(f)
temp1 <- matrix(NA,nrow = length(f_un),ncol=ncol(MAT))
rownames(temp1) <- f_un

for(i in 1:length(f_un)){
  temp1[i,] <- apply(MAT[f_un[i] == f,,drop=FALSE],2,aggr_FUN)
}
})


 user  system elapsed 
   0.41    0.00    0.41

#A2. aggregate
system.time({
temp2 <- aggregate(. ~ class, data = cbind.data.frame(class=f,MAT), aggr_FUN)
})


 user  system elapsed 
   7.76    0.05    7.81

#A3. reshape2
library(reshape2)
system.time({
temp3 <- recast(data.frame(class=f,MAT),class ~ variable,id.var="class",aggr_FUN)
})


  user  system elapsed 
   1.82    0.30    2.12

#A4. purrr
library(purrr)
system.time({
temp4 <- data.frame(class = f, MAT) %>%
  slice_rows("class") %>%
  by_slice(map, aggr_FUN)
})


   user  system elapsed 
   0.47    0.00    0.47

正如你所看到的，循环实际上是最快的解决方案， purrr 包只是稍微慢了一点。 recast 慢 5 倍， aggregate 明显更宽松。
我也尝试过 dplyr 包，但由于某种原因( https://github.com/hadley/dplyr/issues/1395 )，结果非常慢。
purrr 既快速又优雅，因此对于这部分来说，这是一个寻找更好方法的学术练习。

此时我们的输出是:

> temp1[,1:6]
       [,1]      [,2]      [,3]      [,4]      [,5]      [,6]
A 0.4804964 0.4779168 0.5292458 0.4401357 0.4728515 0.5009800
B 0.4819612 0.5260592 0.5291887 0.5095620 0.4840777 0.4792213
C 0.4661714 0.4886010 0.5006018 0.5061170 0.5058892 0.5432819
D 0.4566942 0.4519988 0.5334207 0.4912822 0.4542889 0.4898384
E 0.4967948 0.5630683 0.4941777 0.5239327 0.5045152 0.5227140

因此，如果您仍在阅读这里，那么更具挑战性的部分。我们需要计算所有组/行组合之间的倍数变化。

我找到了两种方法来做到这一点:

#B1. by loop
combs <- t(combn(as.character(f_un),2))
combi_FUN_vec <- Vectorize(combi_FUN)

out <- matrix(NA,nrow = nrow(combs),ncol=ncol(temp1))
rownames(out) <- pasteC(combs[,1],combs[,2])
colnames(out) <- 1:ncol(temp1)

system.time({

for( i in 1:nrow(combs)){
  out[i,] <- combi_FUN_vec(    temp1[combs[i,1],]      ,         temp1[combs[i,2],]   )
}

})


  user  system elapsed 
   0.13    0.00    0.13

#B2. by apply
class_computed <- as.character(temp2[,1])
temp2 <- as.matrix(temp2[,-1])
combs <- t(combn(class_computed,2))
rownames(temp2) <- class_computed

combi_FUN_vec <- Vectorize(combi_FUN)

system.time({

out <- apply(temp2,2,function(x){
  v <- combi_FUN_vec(    x[combs[,1]]      ,        x[combs[,2]]    )
  names(v) <- pasteC(combs[,1],combs[,2])
  return(v)
})

})


   user  system elapsed 
   0.91    0.00    0.91

毫不奇怪，循环显然是赢家，输出是这样的:

> out[,1:5]
              1         2         3         4         5
A - B 1.2128952 1.0161608 0.9313115 0.9767619 1.0132362
A - C 1.0946079 1.0524154 0.9882857 0.9546686 0.9604382
A - D 1.1872958 0.9113349 0.9941437 0.8751611 0.9863873
A - E 1.1457396 0.9669100 0.9146375 0.8760513 1.0604971
B - C 0.9024753 1.0356780 1.0611763 0.9773810 0.9478918
B - D 0.9788940 0.8968413 1.0674664 0.8959820 0.9735018
B - E 0.9446320 0.9515325 0.9820962 0.8968933 1.0466435
C - D 1.0846768 0.8659461 1.0059275 0.9167172 1.0270179
C - E 1.0467123 0.9187532 0.9254788 0.9176496 1.1041804
D - E 0.9649993 1.0609821 0.9200254 1.0010171 1.0751326

现在这就是我的问题......最后两个方法非常难看。
有没有更好/更清洁/更快的方法？最好使用 dplyr/ purrr 风格的语法？也许甚至不必通过 combn ？

任何提示表示赞赏。

编辑:

我设法以 dplyr 风格制作了一个更紧凑的版本:

f_un <- unique(f)
  combs <- t(combn(as.character(f_un),2))

  out3 <- data.frame(class = f, MAT) %>%  slice_rows("class") %>% by_slice(map, aggr_FUN) %>% 
          do(combi_FUN( slice(.,match(combs[,1], class))[,-1]  ,slice(.,match(combs[,2], class))[,-1]      )) %>% 
          as.data.frame(row.names = pasteC(combs[,1],combs[,2]))

有没有办法简化并加快速度？它比上面最快的慢 10 倍。

编辑2:
根据迄今为止的建议，最快和最干净的是以下功能。

fold.change <- function(MAT,f,aggr_FUN=mean,combi_FUN=function(x,y) "/"(x,y)   ){

  # mean using purrr
  x <- data.frame(class = f, MAT) %>%  slice_rows("class") %>% by_slice(map, aggr_FUN)
  rownames <- as.character(as.data.frame(x[,1])[,1])
  x <- as.matrix(x[,-1])
  rownames(x) <- rownames

  # calculate changes between all rows
  i <- combn(unique(f), 2)
  ret <- combi_FUN(x[i[1,],] , x[i[2,],])
  rownames(ret) <- pasteC(i[1,], i[2,])

  # Put original colnames
  colnames(ret) <- colnames(MAT)

  return(ret)
}

最佳答案

矩阵运算和子集运算速度很快:

fold <- function(x, f, aggr_FUN = colMeans, combi_FUN = '/'){
  f <- as.factor(f)
  i <- split(1:nrow(x), f)
  x <- sapply(i, function(i){ aggr_FUN(x[i,])})
  x <- t(x)
  j <- combn(levels(f), 2)
  ret <- combi_FUN(x[j[1,],], x[j[2,],])
  rownames(ret) <- paste(j[1,], j[2,], sep = '-')
  ret
}

> system.time(ret <- fold(MAT, f))
   user  system elapsed 
   0.13    0.00    0.12 
> all.equal(ret, out, check.attributes = F)
[1] TRUE
> if(require(matrixStats))  
+   system.time(fold(MAT, f, aggr_FUN = colMedians))
   user  system elapsed 
   0.27    0.00    0.27 
> if(require(matrixStats))
+   system.time(fold(MAT, f, aggr_FUN = colSds))
   user  system elapsed 
   0.17    0.02    0.18

除非，我真的误解了你想要做什么。

关于r - 计算多个变量的多个组之间的倍数变化的快速而优雅的方法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32513189/

文章推荐： jQuery ui 对话框在标题栏中添加帮助图标

文章推荐： python - Numpy 字符串数组用字符串填充

ios - tableView中的两种类型的单元格-优雅
您如何优雅编码同一tableView中的两种类型的单元格？显然我可以这样: NSDictionary *cellInfo = [_userInformation objectAtIndex:inde
c++ - 让细节命名空间代码看不见 - 优雅
假设我正在编写一个仅包含标题或主要包含标题的库，并且具有以下代码: using my_type = int; namespace detail { inline void foo() { my
jquery - 优雅/简单这个js？
我正在使用复选框和输入进行一系列启用/禁用选择，我想知道我是否可以使用循环、变量或复合语句来简单地处理这个js？感觉就像是使用大量代码来实现相对简单的功能。这是我正在做的事情的一个 fiddle :
javascript - 正则表达式拆分并记住匹配(优雅)
我正在尝试为来自维基百科的 API 响应编写一个解析器。它真的很困惑，我已经求助于旧的 RegEx 来清理大部分东西。然而，我坚持这一点。考虑一个字符串: var a ="[[December 1]
for-loop - 优雅/最佳解决方案，从迭代中获取最后一个元素
我正在通过一个 channel 接收多个消息，并在对其进行迭代之后，我想保留最后一个元素以供进一步使用。我的第一个(可能很糟糕!)方法是声明一些变量，然后在每个循环中分配它。 let last = 0
PHP - 生产环境的明智/优雅/优雅的错误处理
我正在编写一个 PHP Web 应用程序，它将在不久的将来在生产环境下运行，而不是使用非用户友好的 die() , 我想我会想出一个 Class处理错误消息。基本上，我的思考过程是这样的: 如果 W
tomcat - 亚马逊AWS和tomcat不间断(优雅)部署
我们有 elb 负载平衡 2 台运行 tomcat 作为应用程序服务器的 WAS 机器。要实现AWS环境下的不间断部署，我们应该，选择部署目标 WAS。让它停止来自 elb 的交易。(elb 暂停
让你的python代码更加pythonic(简练、明确、优雅)
何为pythonic? pythonic如果翻译成中文的话就是很python。很+名词结构的用法在中国不少，比如：很娘，很国足，很CCTV等等。我的理解为，很+名词表达了一种特殊和强调的意味。
ruby - Ruby 中最简洁/优雅/合适的方法参数解析
认为已经有对此的答案，但找不到。我一直在以某种方式解析方法选项，并想检查并确保它是最优雅/最简洁的方式。这是我通常做的: def some_method *args options = args
algorithm - 优雅/干净(特例)直线网格遍历算法？
我正在清理我的一个旧项目。它必须做的一件事是——给定笛卡尔网格系统和网格上的两个正方形，找到所有正方形的列表，连接这两个正方形中心的线将通过这些正方形。这里的特殊情况是所有起点和终点都被限制在正方形
c++ - 访问另一个类(系统)的非静态字段，就好像它是我自己的字段一样 - 优雅
如何使系统 ( SystemB1 ) 访问另一个系统 ( SystemA::sub ) 的字段，就好像它是自己的字段一样？ SystemA是一个拥有自己领域的实用系统 Sub* sub . Syste
java - 优雅/高效地读取 MySQL 数据库中数百万条记录，Java
我有一个包含约 8.000.000 条记录的 MySQL 数据库。因为我需要处理所有这些，所以我使用 BlockingQueue 作为生产者从数据库读取数据并将 1000 条记录放入队列中。 Cons
http - 带有错误处理的 Golang 优雅 HTTP 服务器关闭
我正在让我的 HTTP 服务器正常关闭。我从帖子中获取了提示 here ，到目前为止，我的代码是这样设置的: func start() { //...... //START HTTP/
go - Os/exec 优雅、循环兼容的标准输入和标准输出输入/输出
示例脚本只是“wc -m”命令的包装器，简单的符号计数器。我尝试只用“teststrings” slice 元素提供输入。并在输出监听器 goroutine 接收每个字符串的符号数。寻找一种让“wc”
internet-explorer - powershell 优雅/干净地关闭 Internet Explorer
我想干净/优雅地关闭 Internet Explorer。 taskkill 会关闭它，但是当重新打开它时，它会询问您是否要重新打开上一个 session 。最佳答案尝试 CloseMainWin
ado.net - F# 中的 Haskell HDBC 优雅？
Haskell 的简洁和优雅给我留下了深刻的印象。但我在 .Net 公司工作，所以当我可以使用 F# 时我会使用它——我可能是全国数百个使用它的人中唯一的一个。 ADO.NET 或 F# 是否提供像
iphone - 仅使用 alloc 而不使用 init 是否正确/优雅？
如果我们不想在我们的类中实现 init 方法，并且记住 NSObject 中的 init 只返回一个没有初始化的对象实例，如果我们已经得到了，我不明白调用 init 的意义带有分配的实例。我已经尝试过
delphi - 初级 Delphi 开发人员应该学习哪些干净、优雅、设计良好、编写良好、做得很好的 Delphi 代码？
我们的组织中有许多初级 Delphi 开发人员，作为向他们教授 Delphi 过程的一部分，我希望他们能够看到“干净”、编写良好、设计良好的 Delphi 代码。我要寻找的一些标准包括: 优秀的类(
Python:用 3D bool 索引 3D 数组并返回相同大小的 3D 数组......优雅
我有一个 3D 图像扫描(形状:335x306x306，总元素:31368060)，我想用相同大小的 3D bool 掩码来掩盖它以返回相同大小的蒙版图像。当我简单地用掩码索引数组时: masked
c++ - 适配器模式 : support underlying data that can be const or non-const, 优雅
如何使适配器类适本地支持 const 和非 const 底层数据？具体例子 RigidBody是描述对象物理属性的类。这是其非常简化的版本(1D):- class RigidBody{ f

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 计算多个变量的多个组之间的倍数变化的快速而优雅的方法？