gpt4 book ai didi

r - 在列中找到最近的前一个负值

转载 作者:行者123 更新时间:2023-12-04 11:55:44 26 4
gpt4 key购买 nike

我有一个数据框 df :

library(tidyverse)
t <- c(103,104,108,120,127,129,140,142,150,151,160,177,178,183,186,187,191,194,198,199)
w <- c(1,1,1,-1,-1,-1,-1,-1,1,1,-1,-1,1,1,1,-1,1,1,-1,-1)

df <- data_frame(t, w)

> dput(df)
structure(list(t = c(103, 104, 108, 120, 127, 129, 140, 142,
150, 151, 160, 177, 178, 183, 186, 187, 191, 194, 198, 199),
w = c(1, 1, 1, -1, -1, -1, -1, -1, 1, 1, -1, -1, 1, 1, 1,
-1, 1, 1, -1, -1)), .Names = c("t", "w"), row.names = c(NA,
-20L), class = c("tbl_df", "tbl", "data.frame"))

> df
# A tibble: 20 x 2
t w
<dbl> <dbl>
1 103 1.00
2 104 1.00
3 108 1.00
4 120 -1.00
5 127 -1.00
6 129 -1.00
7 140 -1.00
8 142 -1.00
9 150 1.00
10 151 1.00
11 160 -1.00
12 177 -1.00
13 178 1.00
14 183 1.00
15 186 1.00
16 187 -1.00
17 191 1.00
18 194 1.00
19 198 -1.00
20 199 -1.00

现在,如果 w 中的值 大于零 ,则找到最接近先前负值 w ,并将相应 t 值之间的差值分配给新列 d 。否则,d 为零。 IE。所需的输出应如下所示:
       t     w   d
103 1.00 NA (there is no previous w < 0)
104 1.00 NA (there is no previous w < 0)
108 1.00 NA (there is no previous w < 0)
120 -1.00 0
127 -1.00 0
129 -1.00 0
140 -1.00 0
142 -1.00 0
150 1.00 8 = 150 - 142
151 1.00 9 = 151 - 142
160 -1.00 0
177 -1.00 0
178 1.00 1 = 178 - 177
183 1.00 6 = 183 - 177
186 1.00 9 = 186 - 177
187 -1.00 0
191 1.00 4 = 191 - 187
194 1.00 7 = 194 - 187
198 -1.00 0
199 -1.00 0

(上面的 NA 也可能为零。)

从昨天开始,我试图使用 findInterval()which() 等来解决这个问题,但没有成功。我正在考虑的另一种方法是在 lag() 函数中以某种方式引入变量移位......

理想情况下,我想要一个类似 tidyverse 的解决方案。

任何帮助将不胜感激。
先感谢您!

最佳答案

使用 data.table (因为 tidyverse 目前没有非 equi 连接):

library(data.table)
DT = data.table(df)

DT[, v := 0]
DT[w > 0, v :=
DT[w < 0][.SD, on=.(t < t), mult="last", i.t - x.t]
]

t w v
1: 103 1 NA
2: 104 1 NA
3: 108 1 NA
4: 120 -1 0
5: 127 -1 0
6: 129 -1 0
7: 140 -1 0
8: 142 -1 0
9: 150 1 8
10: 151 1 9
11: 160 -1 0
12: 177 -1 0
13: 178 1 1
14: 183 1 6
15: 186 1 9
16: 187 -1 0
17: 191 1 4
18: 194 1 7
19: 198 -1 0
20: 199 -1 0

它将新列初始化为 0,然后在 w > 0 所在的行子集上替换它。替换使用数据子集 .SD 的连接,其中 w > 0 到表中 w < 0DT[w < 0] 的部分。连接语法是 x[i, on=, j] ,在这种情况下...
  • x = DT[w < 0]
  • i = .SD = DT[w > 0]

  • 连接使用 i 的每一行根据 x 中的规则查找 on= 中的行。当找到多个匹配项时,我们只取最后一个( mult = "last" )。
    j 就是我们用join来做的,这里计算两列的差值。为了消除每个表中的列的歧义,我们使用前缀 x.*i.*

    使用 cummax。 我不确定这是否可以概括,但它适用于示例:
    DT[, v := t - cummax(t*(w < 0))]
    DT[cumsum(w < 0) == 0, v := NA]

    我想这要求 t 列按升序排序。

    关于r - 在列中找到最近的前一个负值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52709348/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com