gpt4 book ai didi

r - 带中断的增量序列

转载 作者:行者123 更新时间:2023-12-04 10:34:10 25 4
gpt4 key购买 nike

我有一个重复序列 TRUE 的数据集我想根据某些条件进行标记 - 来自 id ,以及序列的增量值。一个 FALSE打破 TRUE 的序列s和第一个FALSE打破 TRUE 的任何给定序列应该包括在该序列中。连续FALSE介于两者之间 TRUE s 无关紧要,标记为 0。

例如:

> test
id logical sequence
1 1 TRUE 1
2 1 TRUE 1
3 1 FALSE 1
4 1 TRUE 2
5 1 TRUE 2
6 1 FALSE 2
7 1 TRUE 3
8 2 TRUE 1
9 2 TRUE 1
10 2 TRUE 1
11 2 FALSE 1
12 2 TRUE 2
13 2 TRUE 2
14 2 TRUE 2
15 3 FALSE 0
16 3 FALSE 0
17 3 FALSE 0
18 3 TRUE 1
19 3 FALSE 1
20 3 TRUE 2
21 3 FALSE 2
22 3 FALSE 0
23 3 FALSE 0
24 3 FALSE 0
25 3 TRUE 3

等等。我已经考虑使用 rle()产生
> rle(test$logical)
Run Length Encoding
lengths: int [1:13] 2 1 2 1 4 1 3 3 1 1 ...
values : logi [1:13] TRUE FALSE TRUE FALSE TRUE FALSE ...

但我不确定如何将其映射回数据框。关于如何解决这个问题的任何建议?

以下是示例数据:
> dput(test)
structure(list(id = c(1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2,
2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3), logical = c(TRUE, TRUE,
FALSE, TRUE, TRUE, FALSE, TRUE, TRUE, TRUE, TRUE, FALSE, TRUE,
TRUE, TRUE, FALSE, FALSE, FALSE, TRUE, FALSE, TRUE, FALSE, FALSE,
FALSE, FALSE, TRUE)), .Names = c("id", "logical"), class = "data.frame", row.names = c(NA,
-25L))

最佳答案

一个纯data.table解决方案:

# load the 'data.table'-package & convert 'test' to a data.table with 'setDT'
library(data.table)
setDT(test)

# calculate the new sequence
test[, new_seq := (rleid(logical) - !logical) * !(!logical & !shift(logical, fill = FALSE)), by = id
][new_seq != 0, new_seq := rleid(new_seq), by = id][]

这使:

    id logical new_seq
1: 1 TRUE 1
2: 1 TRUE 1
3: 1 FALSE 1
4: 1 TRUE 2
5: 1 TRUE 2
6: 1 FALSE 2
7: 1 TRUE 3
8: 2 TRUE 1
9: 2 TRUE 1
10: 2 TRUE 1
11: 2 FALSE 1
12: 2 TRUE 2
13: 2 TRUE 2
14: 2 TRUE 2
15: 3 FALSE 0
16: 3 FALSE 0
17: 3 FALSE 0
18: 3 TRUE 1
19: 3 FALSE 1
20: 3 TRUE 2
21: 3 FALSE 2
22: 3 FALSE 0
23: 3 FALSE 0
24: 3 FALSE 0
25: 3 TRUE 3


这是做什么的:
  • rleid(logical) - !logical创建一个数字运行长度 id 并减去 1哪里logical等于 FALSE
  • 然后将上一步的结果与 !(!logical & !shift(logical, fill = FALSE)) 的结果相乘,这是一个 TRUE/FALSE连续向量 FALSE除了 FALSE 中的第一个值之外的值-序列。
  • 最后,我们只为 new_seq 的行创建一个新的运行长度 ID。不等于 0并得到您想要的结果。


  • 稍微改进的替代方案(如@jogo 在评论中所建议的):
    test[, new_seq := (rleid(logical) - !logical) * (logical | shift(logical, fill = FALSE)), by = id
    ][new_seq != 0, new_seq := rleid(new_seq), by = id][]

    关于r - 带中断的增量序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50324485/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com