r - 在 data.table 和/或 dplyr 中跨组和列应用函数-6ren

r - 在 data.table 和/或 dplyr 中跨组和列应用函数

转载作者：行者123 更新时间：2023-12-04 15:03:13

25

4

我想合并两个不等行的数据表或数据帧，其中 dt2 的行数与 dt1 的组数相同。这是一个可重现的例子:

a <- 1:10; b <- 2:11; c <- 3:12
groupVar <- c(1,1,1,2,2,2,3,3,3,3)
dt1 <- data.table(a,b,c,groupVar)
a2 <- c(10,20,30); b2 <- c(20,30,40); c2 <- c(30,40,50)
dt2 <- data.table(a2,b2,c2)

实际情况涉及大量列，因此我需要使用变量来引用它们。使用循环或应用，我希望将 dt2 的每一行添加到包含每组 dt1 的行中。这是许多失败的尝试之一:

for (ic in 1:3) {
  c1 <- dt2[,(ic), with=FALSE]
  c2 <- dt2[,(ic), with=FALSE]
  dt1[,(ic) := .(c1 + c2[.G]), by = "groupVar"]
}

我对如何在 data.table 语法和 dplyr 语法中“按组和按列”进行这种操作很感兴趣。到位(如上所述)并不重要。

期望的结果:

dt1 (or dt3) = 
a   b   c   groupVar
11  22  33  1
12  23  34  1
13  24  35  1
24  35  46  2 
...
40  51  62  3

最佳答案

随问题提供的示例数据集表明列的名称可能因数据集而异，例如，应该添加 b 的列 dt1 和 b2 的列 dt2。

这里有两种方法应该适用于任意数量的任意命名的列对:

以长格式工作
编辑:使用 get() 更新连接
编辑 2:语言计算

1。以长格式工作

可以在查找表或翻译表中提供相应列的信息:

library(data.table)
lut <- data.table(vars1 = c("a", "b", "c"), vars2 = c("a2", "b2", "c2"))

lut

   vars1 vars2
1:     a    a2
2:     b    b2
3:     c    c2

如果列名被视为数据并且列数据具有相同的数据类型，我的第一种方法是 reshape 为长格式。

# reshape to long format
mdt1 <- melt(dt1[, rn := .I], measure.vars = lut$vars1)
mdt2 <- melt(dt2[, groupVar := .I], measure.vars = lut$vars2)
# update join to translate variable names
mdt2[lut, on = .(variable = vars2), variable := vars1]
# update join to add corresponding values of both tables 
mdt1[mdt2, on = .(groupVar, variable), value := x.value + i.value]
# reshape backe to wide format
dt3 <- dcast(mdt1, rn + groupVar ~ ...)[, rn := NULL][]
dt3

    groupVar  a  b  c
 1:        1 11 22 33
 2:        1 12 23 34
 3:        1 13 24 35
 4:        2 24 35 46
 5:        2 25 36 47
 6:        2 26 37 48
 7:        3 37 48 59
 8:        3 38 49 60
 9:        3 39 50 61
10:        3 40 51 62

2。使用 `get()` 更新连接

再想一想，这是一种类似于 OP 提出的 for 循环的方法，并且需要更少的编码:

vars1 <- c("a", "b", "c")
vars2 <- c("a2", "b2", "c2")
dt2[, groupVar := .I]
   
for (iv in seq_along(vars1)) {
  dt1[dt2, on = .(groupVar), 
      (vars1[iv]) := get(paste0("x.", vars1[iv])) + get(paste0("i.", vars2[iv]))][]
}

dt1[]

     a  b  c groupVar
 1: 11 22 33        1
 2: 12 23 34        1
 3: 13 24 35        1
 4: 24 35 46        2
 5: 25 36 47        2
 6: 26 37 48        2
 7: 37 48 59        3
 8: 38 49 60        3
 9: 39 50 61        3
10: 40 51 62        3

请注意，dt1 是通过引用更新的，即没有复制。

在 vars1[iv] 的右侧添加 "x." by vars2[iv] 和 "i." by := 的变量名是为了确保在列名重复的情况下从 dt1 和 dt2 中选择正确的列。请参阅关于 j 中 help("data.table") 参数的高级部分。

3。语言上的计算

这跟在 Matt Dowle's advice 之后创建一个要评估的表达式，“类似于构建动态 SQL 语句以发送到服务器”。有关另一个用例，请参阅 here。

library(glue) # literal string interpolation
library(magrittr) # piping used to improve readability

EVAL <- function(...) eval(parse(text = paste0(...)), envir = parent.frame(2))

data.table(vars1 = c("a", "b", "c"), vars2 = c("a2", "b2", "c2")) %>% 
  glue_data("{vars1} = x.{vars1} + i.{vars2}") %>% 
  glue_collapse( sep = ", ") %>% 
  {glue("dt1[dt2[, groupVar := .I], on = .(groupVar), `:=`({.})][]")} %>% 
  EVAL()

     a  b  c groupVar
 1: 11 22 33        1
 2: 12 23 34        1
 3: 13 24 35        1
 4: 24 35 46        2
 5: 25 36 47        2
 6: 26 37 48        2
 7: 37 48 59        3
 8: 38 49 60        3
 9: 39 50 61        3
10: 40 51 62        3

它以一个查找表开始，该表是即时创建的，随后进行操作以形成完整的 data.table 语句

dt1[dt2[, groupVar := .I], on = .(groupVar), `:=`(a = x.a + i.a2, b = x.b + i.b2, c = x.c + i.c2)][]

作为字符串。然后一次性评估并执行该字符串；不需要 for 循环。

由于辅助函数 EVAL() 已经使用了 paste0()，因此可以省略对 glue() 的调用:

data.table(vars1 = c("a", "b", "c"), vars2 = c("a2", "b2", "c2")) %>% 
  glue_data("{vars1} = x.{vars1} + i.{vars2}") %>% 
  glue_collapse( sep = ", ") %>% 
  {EVAL("dt1[dt2[, groupVar := .I], on = .(groupVar), `:=`(", ., ")][]")}

请注意，点 . 和花括号 {} 在不同的上下文中具有不同的含义，这可能看起来有些困惑。

关于r - 在 data.table 和/或 dplyr 中跨组和列应用函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66616164/

25

4

0

文章推荐： javascript - 有效括号故障排除

clojure:(应用 fn coll)与(应用 #(应用 fn %&)coll)
我正在通过 labrepl 工作，我看到了一些遵循此模式的代码: ;; Pattern (apply #(apply f %&) coll) ;; Concrete example user=> (a
ios - 在应用商店提交 iPhone 应用，然后决定提交 iPad 应用？
我从未向应用商店提交过应用，但我会在不久的将来提交。到目前为止，我对为 iPhone 而非 iPad 进行设计感到很自在。我了解，通过将通用PAID 应用放到应用商店，客户只需支付一次就可以同时使
iphone - 使用多个 Facebook 应用 ID 的 iOS 应用
我有一个应用程序，它使用不同的 Facebook 应用程序(2 个不同的 AppID)在 Facebook 上发布并显示它是“通过 iPhone”/“通过 iPad”。当 Facebook 应用程序
javascript - 在 IOS 应用 Webview 中运行 Angular 应用
我有一个要求，我们必须通过将网站源文件保存在本地 iOS 应用程序中来在 iOS 应用程序 Webview 中运行网站。 Angular 需要服务器来运行应用程序，但由于我们将文件保存在本地，我们无法
facebook-graph-api - 应用 > OAuth2 服务器 > Facebook > OAuth2 服务器 > 应用
所以我有一个单页客户端应用程序。正常流程: 应用程序 -> OAuth2 服务器 -> 应用程序我们有自己的 OAuth2 服务器，因此人们可以登录应用程序并获取与用户实体关联的 access_t
Android 应用 A 想要跟踪 Android 应用 B 安装的 Google Play 推荐数据
假设我有一个安装在用户设备上的 Android 应用程序 A，我的应用程序有一个 AppWidget，我们可以让其他 Android 开发人员在其中以每次安装成本为基础发布他们的应用程序推广广告。因此
JavaScript 应用
Secrets of the JavaScript Ninja中有一个例子它提供了以下代码来绕过 JavaScript 的 Math.min() 函数，该函数需要一个可变长度列表。 Example:
JavaScript 应用()
当我分别将数组和对象传递给 function.apply() 时，我得到 NaN 的 o/p，但是当我传递对象和数组时，我得到一个数字。为什么会发生这种情况？由于数组也被视为对象，为什么我无法使用它
ASP转换格林威治时间函数DateDiff()应用
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章ASP转换格林威治时间函数DateDiff()应用由作者收集整理，如果你
应用 map 后保留列表名称
我正在将列表传递给 map并且想要返回一个带有合并名称的 data.frame 对象。例如: library(tidyverse) library(broom) mtcars %>% spl
r - 计算每行的每周返回 - 应用
我有一个非常基本的问题，但我不知道如何实现它:我有一个返回数据框，其中每个工具的返回值是按行排列的: tmp<-as.data.frame(t(data.frame(a=rnorm(250,0,1)
创建第二个群组的 Facebook 应用
我正在使用我的 FB 应用创建群组并邀请用户加入我的应用群组，第一次一切正常。当我尝试创建另一个组时，出现以下错误: {"(OAuthException - #4009) (#4009) 在有更多用户
适用于特定设备的 iOS 应用
我们正在开发一款类似于“会说话的本”应用程序的 child 应用程序。它包含大量用于交互式动画的 JPEG 图像序列。问题是动画在 iPad Air 上播放正常，但在 iPad 2 上播放缓慢或滞后
clojure - 应用 Clojure
我关注 clojure 一段时间了，它的一些功能非常令人兴奋(持久数据结构、函数式方法、不可变状态)。然而，由于我仍在学习，我想了解如何在实际场景中应用，证明其好处，然后演化并应用于更复杂的问题。即，
非英语版本的 iOS 应用
我开发了一个仅使用挪威语的应用程序。该应用程序不使用本地化，因为它应该仅以一种语言(挪威语)显示。但是，我已在 Info.plist 文件中将“本地化 native 开发区域”设置为“no”。我还使用
haskell - 应用 <* 的一元等价物
读完 Anthony's response 后上a style-related parser question ，我试图说服自己编写单体解析器仍然可以相当紧凑。所以而不是 reference ::
r - 多核::应用？
multicore 库中是否有类似 sapply 的东西？还是我必须 unlist(mclapply(..)) 才能实现这一点？如果它不存在:推理是什么？提前致谢，如果这是一个愚蠢的问题，我们深表
r - 如何使用函数查看文件中的结果并*应用？
我喜欢在窗口中弹出结果，以便更容易查看和查找(例如，它们不会随着控制台继续滚动而丢失)。一种方法是使用 sink() 和 file.show()。例如: y <- rnorm(100); x <- r
应用@valid之前的spring mvc进程对象
我有一个如下所示的 spring mvc Controller @RequestMapping(value="/new", method=RequestMethod.POST) public Stri
c# - 应用 Bootstrap
我正在阅读 StructureMap关于依赖注入(inject)，首先有两部分初始化映射，具体类类型的接口(interface)，另一部分只是实例化(请求实例)。第一部分需要配置和设置，这是在 Bo

首页

博学

6Ren·AI

商城