gpt4 book ai didi

r - 有条件地合并来自两个数据框的数据

转载 作者:行者123 更新时间:2023-12-04 20:04:34 24 4
gpt4 key购买 nike

我目前正在尝试合并来自两个 df 眼动追踪数据的信息。在一个 df(行为)中,有与实验中每个试验相关联的开始和结束时间。在另一个 df(gaze) 中,记录了凝视的时间戳。我想通过每个凝视时间戳并评估它是否在试验的开始和结束时间内(从行为 df 中提取的信息),如果是,则将行为 df 中的试验信息添加到试验列中凝视 df.

dfs如下:

Behavioral df
StartTime EndTime Trial
1: 0 0.8 a
2: 1 1.8 b
3: 2 2.8 c
4: 3 3.8 d

Gaze df
Gaze x y Frame Trial
1: 0.00 100 200 126 NA
2: 0.20 101 201 126 NA
3: 0.40 102 202 127 NA
4: 0.80 103 203 127 NA
5: 0.60 104 204 127 NA
6: 0.90 105 205 127 NA
7: 1.20 106 206 128 NA
8: 1.40 107 207 128 NA
9: 1.60 108 208 128 NA
10: 2.02 109 209 129 NA
11: 2.50 110 210 129 NA
12: 2.90 111 211 129 NA
13: 3.10 112 212 130 NA
14: 3.79 113 213 130 NA

我想浏览一下凝视时间戳。即,对于 Gaze$Gaze[1],它是在 0 到 0.8 之间吗?是 >>> Gaze$Trial[1]=a

我试过了

for(i in Gaze$Gaze){
if(as.numeric(Gaze$Gaze[i]) >= as.numeric(Behavior$StartTime[i])){
if(as.numeric(Gaze$Gaze[i]) <= as.numeric(Behavior$EndTime[i])){
Gaze$Trial[i]<-Behavior$Trial[i]
}
}
else Gaze$Trial[i]<-NA

}

我得到错误:

Error in if (as.numeric(fakegaze$Gaze[i]) >= as.numeric(fakebehavior$StartTime[i])) { : argument is of length zero

我相信在合并信息之前我可能需要使用另一个 for 循环来分别遍历两个 df,但我不确定从哪里开始。谢谢!

数据:

library(data.table)
beh = setDT(structure(list(StartTime = c(0, 1, 2, 3), EndTime = c(0.8, 1.8, 2.8, 3.8
), Trial = c("a", "b", "c", "d")), row.names = c(NA, -4L), class = "data.frame"))

gaze = setDT(structure(list(Gaze = c(0, 0.2, 0.4, 0.8, 0.6, 0.9, 1.2, 1.4,
1.6, 2.02, 2.5, 2.9, 3.1, 3.79), x = 100:113, y = 200:213, Frame = c(126L,
126L, 127L, 127L, 127L, 127L, 128L, 128L, 128L, 129L, 129L, 129L,
130L, 130L), Trial = c(NA, NA, NA, NA, NA, NA, NA, NA, NA, NA,
NA, NA, NA, NA)), row.names = c(NA, -14L), class = "data.frame"))

最佳答案

您可以使用非等连接来更新凝视表中的 Trial:

gaze[, Trial := beh[.SD, on=.(StartTime <= Gaze, EndTime >= Gaze), x.Trial]]

Gaze x y Frame Trial
1: 0.00 100 200 126 a
2: 0.20 101 201 126 a
3: 0.40 102 202 127 a
4: 0.80 103 203 127 a
5: 0.60 104 204 127 a
6: 0.90 105 205 127 <NA>
7: 1.20 106 206 128 b
8: 1.40 107 207 128 b
9: 1.60 108 208 128 b
10: 2.02 109 209 129 c
11: 2.50 110 210 129 c
12: 2.90 111 211 129 <NA>
13: 3.10 112 212 130 d
14: 3.79 113 213 130 d

此方法假定 beh 中没有重叠区间(在这种情况下,正确的 Trial 可能不明确)。

(OP 没有用 data.table 标记问题或包含 library(data.table) 调用,但我假设他们根据表格的打印方式使用它.)


作为 .SD is locked error bug 的解决方法, 我通常按照错误消息中的建议使用 copy(.SD) 。但是,正如 OP 在评论中指出的那样,这对于大数据来说可能很昂贵。通常等效的替代方法是翻转连接:

# convert to correct NA type
gaze[, Trial := rep(beh$Trial[NA_integer_], .N)]
# reversed update join
gaze[beh, on=.(Gaze >= StartTime, Gaze <= EndTime), Trial := i.Trial]

对于 OP 的情况,它似乎仍然产生了正确的结果。我通常avoid this kind of join因为我发现它更难阅读,而且它会产生奇怪的副作用。特别是,在 x[i, on=, v := i.v] 中,如果 i 的多行映射到 x 的同一行,只会使用最后匹配的行(没有警告或错误)。

关于r - 有条件地合并来自两个数据框的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57167921/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com