gpt4 book ai didi

r - Lubridate - 查找间隔和日期之间的重叠时间

转载 作者:行者123 更新时间:2023-12-04 11:59:09 25 4
gpt4 key购买 nike

我有一个以日期时间格式开始和结束的数据框,如下所示:

shift_time <- data.frame(
started_at = c("2019-09-01 02:00:00 AEST", "2019-09-02 05:00:00 AEST", "2019-11-04 20:00:00 AEDT"),
ended_at = c("2019-09-01 11:30:00 AEST", "2019-09-02 19:00:00 AEST", "2019-11-05 04:00:00 AEDT")
)

我有另一个带有公共(public)假期日期的数据框,如下所示:
public_holidays <- data.frame(
hol_name = c('Cup Day', 'Christmas'),
date = c("2019-11-05", "2019-12-25")
)

我想用一个新列更新 shift_time df,该列记录公共(public)假期发生的类次小时数 - 即,我想计算类次间隔和任何适用的公共(public)假期之间的重叠(以小时为单位)。在上面的示例中,新变量的预期值为 0、0、4。

有没有一种不涉及创建大量新变量(例如,差异时间、间隔、匹配日期)的方法?

最佳答案

有内置lubridate::int_overlaps但这只会返回一个合乎逻辑的结果,而不是它们重叠的时间。幸运的是,intersection函数有一个 Interval 的方法对象。唯一的技巧是,如果没有重叠,它返回长度- NA ,而不是长度- 0 .所以我们可以像这样总结这个逻辑:

library(lubridate)

int_overlaps_numeric <- function (int1, int2) {
stopifnot(c(is.interval(int1), is.interval(int2)))

x <- intersect(int1, int2)@.Data
x[is.na(x)] <- 0
as.duration(x)
}

这构造了作为重叠的间隔,然后提取它的长度(以秒为单位)。如果是 NA ,将其更改为零,然后返回。 as.duration只是给我们漂亮的打印。现在你只需要给它两个间隔:
int1 <- as.interval(5, Sys.time())
int2 <- as.interval(5, Sys.time()+3)

int_overlaps_numeric(int1, int2)

"1.99299597740173s"


所以你需要把你所有的假期安排成间隔,把你所有的类次安排成间隔。大概您希望将这些重叠与 shift_time 中的其他数据相关联。数据框,所以我们将使用 dplyr在那里完成我们所有的工作。但是,您想查看 每个 的向量移动全部 假期,所以我们应该添加另一个辅助函数(使用 purrr::map )。
library(dplyr)
library(purrr)

check_shift_against_holidays <- function(shift, holidays) {
map(shift, ~sum(int_overlaps_numeric(.x, holidays))) %>%
unlist() %>%
as.duration()
}

该函数采用两个区间向量。对于第一个向量的每个元素,它计算与第二个向量的每个元素的重叠,然后将它们相加。然后将其从列表转回向量,并将其重新分类为 duration用于漂亮的打印。这里需要注意的是,如果 holidays 中有任何重叠矢量,这些时间将被重复计算。
                               # days(1) since the holiday lasts all day
holiday_intervals <- as.interval(days(1), ymd(public_holidays$date))

shift_time %>%
mutate(
shift = interval(ymd_hms(started_at), ymd_hms(ended_at)),
holiday_hours = check_shift_against_holidays(shift, holiday_intervals)
)

                started_at                 ended_at                                            shift     holiday_hours
1 2019-09-01 02:00:00 AEST 2019-09-01 11:30:00 AEST 2019-09-01 02:00:00 UTC--2019-09-01 11:30:00 UTC 0s
2 2019-09-02 05:00:00 AEST 2019-09-02 19:00:00 AEST 2019-09-02 05:00:00 UTC--2019-09-02 19:00:00 UTC 0s
3 2019-11-04 20:00:00 AEDT 2019-11-05 04:00:00 AEDT 2019-11-04 20:00:00 UTC--2019-11-05 04:00:00 UTC 14400s (~4 hours)


如果你是 真的反对创建任何新的中间变量:
shift_time %>% 
mutate(
holiday_hours = check_shift_against_holidays(
ymd_hms(started_at) %--% ymd_hms(ended_at),
holiday_intervals
)
)

                started_at                 ended_at     holiday_hours
1 2019-09-01 02:00:00 AEST 2019-09-01 11:30:00 AEST 0s
2 2019-09-02 05:00:00 AEST 2019-09-02 19:00:00 AEST 0s
3 2019-11-04 20:00:00 AEDT 2019-11-05 04:00:00 AEDT 14400s (~4 hours)

关于r - Lubridate - 查找间隔和日期之间的重叠时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58517015/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com