gpt4 book ai didi

r - 如何在不使用两个 for 循环的情况下填充我的 data.table?

转载 作者:行者123 更新时间:2023-12-04 12:01:29 25 4
gpt4 key购买 nike

我无法在任何地方找到答案,我可能没有找到正确的搜索词,或者无法将问题转移给我。

所以我希望这里有人能够帮助我。

我有一个以下形式的 data.table dt1(我尽量保持简短,但需要包括所有可能性):

ID  session
101 1
101 1
101 2
101 4
102 2
102 4
102 5
103 1
103 4
201 1
201 4
201 5
202 1
202 2
203 1
204 5

重现代码:

dt1 <- data.table(ID=c(101, 101, 101, 101, 102, 102, 102, 103, 103, 201, 201, 201, 202, 202, 203, 204), session=c(1, 1, 2, 4, 2, 4, 5, 1, 4, 1, 4, 5, 1, 2, 1, 5))

第一步我想要的是表单中的 data.table,当输入 data.frame 中有一个条目时,每个 session 都有一个 1,否则为 0。

ID  1   2   3   4   5
101 1 1 0 1 0
102 0 1 0 1 1
103 1 0 0 1 0
201 1 0 0 1 1
202 1 1 0 0 0
203 1 0 0 0 0
204 0 0 0 0 1

现在,我正在生成两个列表,

IDs <- sort(unique(dt1$ID))
sessions <- unique(dt1$session)

带有 ncol=length(sessions)nrow=length(IDs) 的空数据表 dt2, session 作为列名字

dt2 <- data.table(matrix(ncol=length(sessions), nrow=length(IDs)))
colnames(dt2) <- as.character(unique(dt1$session))

以及每个 ID 的 session 列表。

sesID <- split(dt1$session, dt1$ID)

然后我用两个 for 循环遍历列表。

for (i in 1:nrow(dt2)) {
for (j in 1:length(dt2)) {
if (sessions[j] %in% sesID[i]) {
set(dt2, i, j, 1)s
}
else {
set(dt2, i, j, 0)
} } }

作为第二步,如果 session 位于 1 的 session 之间,我想将所有 0 更改为 1。

ID  1   2   3   4   5
101 1 1 1 1 0
102 0 1 1 1 1
103 1 1 1 1 0
201 1 0 0 1 1
202 1 1 0 0 0
203 1 0 0 0 0
204 0 0 0 0 1

我正在使用另外两个 for 循环执行此操作。

for (i in 1:nrow(dt2)) {
trues <- which(dt2[i,]==1)
headTrues <- head(trues, 1)
tailTrues <- tail(trues, 1)
for (j in 1:length(dt2)){
if (j > headTrues & j < tailTrues & headTrues <= tailTrues){
set(dt2, i, j, 1)
} } }

因为这会为我生成一个带有 TRUE 和 FALSE 的 data.table dt3,我之后会替换它们。

(to.replace <- names(which(sapply(dt3, is.logical)))) 
for (var in to.replace) dt3[, var:= as.numeric(get(var)), with=FALSE]

为了将 ID 保留为一列,我随后添加了它们。

dt3$ID <- IDs

如果我没有大约 12000 个唯一 ID 并且需要运行几千次,那就没问题了。我很确定在 R 中有更好的方法可以做到这一点。我只是现在还没有。

非常感谢您。

最佳答案

使用:

# create a reference data.table which includes also 'session 3'
ref <- CJ(ID = dt1$ID, session = min(dt1$session):max(dt1$session), unique = TRUE)
# join 'ref' with 'dt1' and create a new variable that has NA's
# for values that don't exist in 'dt1$session'
ref[dt1, on = c('ID','session'), ses2 := i.session]

# summarise to create a dummy and reshape to wide format with the 'dcast'-function
dcast(ref[, sum(!is.na(ses2)), .(ID,session)],
ID ~ session, value.var = 'V1')

你得到:

    ID 1 2 3 4 5
1: 101 1 1 0 1 0
2: 102 0 1 0 1 1
3: 103 1 0 0 1 0
4: 201 1 0 0 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

替代方案(@Frank 在评论中提出):

dt1[, session := factor(session, levels=1:5)]
dcast(dt1, ID ~ session, fun = function(x) sign(length(x)), drop = FALSE)

这会给你相同的结果。


如果要在 1 之间填充零,可以使用 shift 函数来检查前后值是否等于 1:

dcast(ref[, sum(!is.na(ses2)), .(ID,session)
][shift(V1,1,0,'lag')==1 & shift(V1,1,0,'lead')==1, V1 := 1L, ID],
ID ~ session, value.var = 'V1')

你会得到:

    ID 1 2 3 4 5
1: 101 1 1 1 1 0
2: 102 0 1 1 1 1
3: 103 1 0 0 1 1
4: 201 1 0 0 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

作为对您评论的回应,要替换 1 之间的所有零,您可以结合使用 rleinverse.rle 函数:

dt2 <- unique(dt1)[, val := 1
][CJ(ID = ID, session = min(session):max(session), unique = TRUE), on = c('ID','session')
][is.na(val), val := 0
][, val := {rl <- rle(val);
rl$values[rl$values==0 & shift(rl$values,fill=0)==1 & shift(rl$values,fill=0,type='lead')==1] <- 1;
inverse.rle(rl)},
ID]

dcast(dt2, ID ~ session, value.var = 'val')

这给出:

    ID 1 2 3 4 5
1: 101 1 1 1 1 0
2: 102 0 1 1 1 1
3: 103 1 1 1 1 0
4: 201 1 1 1 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

或者(@Frank 的想法):

ref[, v := 0L]
ref[dt1[, .(first(session), last(session)), by=ID], on=.(ID, session >= V1, session <= V2),
v := 1L ]
dcast(ref, ID ~ session)

当数据集中存在所有不同的 session 编号时,您还可以使用嵌套的 dcast/melt 方法作为交叉连接方法的替代方法(使用关于速度和内存效率,以前的交叉连接方法 (CJ) 更可取。

新示例数据集:

DT <- data.table(ID=c(101, 101, 101, 101, 102, 102, 102, 103, 103, 201, 201, 201, 202, 202, 203, 204), 
session=c(1, 2, 3, 4, 2, 4, 5, 1, 4, 1, 4, 5, 1, 2, 1, 5))

代码:

dcast(melt(dcast(DT[, val := 1], 
ID ~ session,
value.var = 'val',
fill = 0),
id = 'ID')[, value := {rl <- rle(value);
rl[[2]][rl[[2]]==0 & shift(rl[[2]],1,0)==1 & shift(rl[[2]],1,0,'lead')==1] <- 1;
inverse.rle(rl)},
ID],
ID ~ variable, value.var = 'value')

这给出:

    ID 1 2 3 4 5
1: 101 1 1 1 1 0
2: 102 0 1 1 1 1
3: 103 1 1 1 1 0
4: 201 1 1 1 1 1
5: 202 1 1 0 0 0
6: 203 1 0 0 0 0
7: 204 0 0 0 0 1

关于r - 如何在不使用两个 for 循环的情况下填充我的 data.table?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43226300/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com