gpt4 book ai didi

r - 按组在多个时间间隔列之间重叠

转载 作者:行者123 更新时间:2023-12-04 15:27:32 25 4
gpt4 key购买 nike

几天前我打开了这个相关的线程:Time-interval overlap match by group

但是,现在我必须处理这样一个事实,即我需要重叠多个时间间隔列并在发生这种情况时返回 flag = 1 的第一个 row_number 值。

例如我有以下 df:

id    flag  row_number         time_1                             time_2              result
1 1 1 2001-04-01 UTC--2001-05-01 UTC 1960-01-01 UTC--1962-01-01 UTC NA
1 1 2 2007-08-01 UTC--2007-12-01 UTC 1980-01-01 UTC--1982-01-01 UTC NA
1 1 3 2010-03-01 UTC--2011-03-01 UTC 1949-01-01 UTC--1951-01-01 UTC NA
1 0 4 2001-04-15 UTC--2001-04-20 UTC 1981-01-01 UTC--1983-01-01 UTC NA
1 0 5 2001-04-17 UTC--2001-05-15 UTC 1959-01-01 UTC--1961-01-01 UTC 1
1 0 6 2007-09-01 UTC--2007-12-01 UTC 1980-01-01 UTC--1983-01-01 UTC 2
1 0 7 2011-01-01 UTC--2011-03-05 UTC 1994-01-01 UTC--1996-01-01 UTC NA
1 0 8 2018-01-01 UTC--2017-12-01 UTC 1949-01-01 UTC--1951-01-01 UTC NA

使用以下代码创建:

library(dplyr)
library(purrr)
library(lubridate)

df <- data.frame(id=c(1, 1, 1, 1, 1, 1, 1, 1),
flag=c(1, 1, 1, 0, 0, 0, 0, 0),
row_number=c(1,2,3,4,5,6,7,8),
time_1=c(interval(ymd(20010401), ymd(20010501)),
interval(ymd(20070801), ymd(20071201)),
interval(ymd(20100301), ymd(20110301)),
interval(ymd(20010415), ymd(20010420)),
interval(ymd(20010417), ymd(20010515)),
interval(ymd(20070801), ymd(20071201)),
interval(ymd(20110101), ymd(20110305)),
interval(ymd(20180101), ymd(20171201))),
time_2=c(interval(ymd(19600101), ymd(19620101)),
interval(ymd(19800101), ymd(19820101)),
interval(ymd(19490101), ymd(19510101)),
interval(ymd(19810101), ymd(19830101)),
interval(ymd(19590101), ymd(19610101)),
interval(ymd(19800101), ymd(19820101)),
interval(ymd(19940101), ymd(19960101)),
interval(ymd(19490101), ymd(19510101))),
result = c(NA, NA, NA, NA, 1, 2, NA, NA))

也就是说,我需要找到与标志 = 0 的行的 time_1time_2 以及标志 = 1 的行的所有 time_1 和 time_2 变量的重叠。

结果 应该是一个列,其row_number 值是标志 0 的行与标志 1 的行之间的第一个匹配项,该行具有重叠的 time_1 和 time_2 间隔.为此,我尝试了 lubridate 包中的 int_overlap() 函数。

通过这段代码,我能够利用 map_int() 函数确定 flag = 0 的一行与 任何 flag == 1 的行之间是否存在 time_1 重叠

library(tidyverse)
library(lubridate)

df %>%
group_by(id) %>%
mutate(value = ifelse(flag == 0, map_int(time_1, ~ any(int_overlaps(.x, time_1[flag == 1]))), NA))

一个可能有用的相关问题: R Find overlap among time periods

编辑:我想获得一个列,该列使用 row_number 变量标识,这是第一个标志 1 行,其 time_1 和 time_2 重叠值与标志 0 行。

id    flag  row_number         time_1                             time_2              result
1 1 1 2001-04-01 UTC--2001-05-01 UTC 1960-01-01 UTC--1962-01-01 UTC NA

1 0 5 2001-04-17 UTC--2001-05-15 UTC 1959-01-01 UTC--1961-01-01 UTC 1

例如 row_number 1 和 5 满足条件。结果是一个整数列,表示 row_number 5(标志 0 行)的 time_1 和 time_2 与 row_number 1(标志 1)重叠。

希望这能澄清。

最佳答案

这是一个使用 data.table 的选项,通过执行两次重叠连接:

setkey(setDT(df), id, time_1_start, time_1_end)
ol1 <- foverlaps(df, df, nomatch=0L)[
row_number!=i.row_number & i.flag==0L & flag==1L,
.(id, irn=i.row_number, rn=row_number, flag=i.flag,
time_2_start=i.time_2_start, time_2_end=i.time_2_end)]

setkey(df, id, time_2_start, time_2_end)
setkey(ol1, id, time_2_start, time_2_end)
olaps <- foverlaps(ol1, df)[row_number!=irn & row_number==rn & i.flag==0L & flag==1L,
.(id, irn, xrn=row_number)]

df[olaps, on=.(id, row_number=irn), res := xrn]
setorder(df, row_number)
df

输出:

   id flag row_number time_1_start time_1_end time_2_start time_2_end res
1: 1 1 1 2001-04-01 2001-05-01 1960-01-01 1962-01-01 NA
2: 1 1 2 2007-08-01 2007-12-01 1980-01-01 1982-01-01 NA
3: 1 1 3 2010-03-01 2011-03-01 1949-01-01 1951-01-01 NA
4: 1 0 4 2001-04-15 2001-04-20 1981-01-01 1983-01-01 NA
5: 1 0 5 2001-04-17 2001-05-15 1959-01-01 1961-01-01 1
6: 1 0 6 2007-08-01 2007-12-01 1980-01-01 1982-01-01 2
7: 1 0 7 2011-01-01 2011-03-05 1994-01-01 1996-01-01 NA
8: 1 0 8 2017-12-01 2018-01-01 1949-01-01 1951-01-01 NA

数据:

library(data.table)
dtfun <- function(x) as.IDate(x, format="%Y%m%d")
df <- data.frame(id=c(1, 1, 1, 1, 1, 1, 1, 1),
flag=c(1, 1, 1, 0, 0, 0, 0, 0),
row_number=c(1,2,3,4,5,6,7,8),
time_1_start=dtfun(c("20010401","20070801","20100301","20010415",
"20010417","20070801","20110101","20171201")),
time_1_end=dtfun(c("20010501","20071201","20110301","20010420","
20010515","20071201","20110305","20180101")),
time_2_start=dtfun(c("19600101","19800101","19490101","19810101",
"19590101","19800101","19940101","19490101")),
time_2_end=dtfun(c("19620101","19820101","19510101","19830101",
"19610101","19820101","19960101","19510101")))

关于r - 按组在多个时间间隔列之间重叠,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61982999/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com