gpt4 book ai didi

r - 子集 data.frame 基于时间间隔 + 或 - 日期列表

转载 作者:行者123 更新时间:2023-12-01 08:53:17 25 4
gpt4 key购买 nike

我有一个大型(20,000 obs)data.frame,其中包含每小时值并按唯一 ID 分组。我还有一个日期列表(每个日期都出现在 data.frame 中)。我正在尝试将日期与 data.frame 匹配,然后从匹配日期提取 + 或 - 某个时间间隔之间的日期时间。比如在下面的data.frame中:

 setAs("character","myDate", function(from) as.POSIXct(from, "%m/%e/%Y    %H:%M", tz="UTC")) 
# previous function formats date input as UTC
df <- read.table(textConnection("datetimeUTC id value
'5/1/2013 5:00' 153 0.53
'5/1/2013 6:00' 153 0.46
'5/1/2013 7:00' 153 0.53
'5/1/2013 8:00' 153 0.46
'5/1/2013 9:00' 153 0.44
'5/1/2013 10:00' 153 0.48
'5/1/2013 11:00' 153 0.49
'5/1/2013 12:00' 153 0.49
'5/1/2013 13:00' 153 0.51
'5/1/2013 14:00' 153 0.53
'11/24/2013 9:00' 154 0.45
'11/24/2013 10:00' 154 0.46
'11/24/2013 11:00' 154 0.49
'11/24/2013 12:00' 154 0.55
'11/24/2013 13:00' 154 0.61
'11/24/2013 14:00' 154 0.7
'11/24/2013 15:00' 154 0.74
'11/24/2013 16:00' 154 0.78
'11/24/2013 17:00' 154 0.77
'11/24/2013 18:00' 154 0.79
'8/2/2015 1:00' 240 0.2
'8/2/2015 2:00' 240 0.2
'8/2/2015 3:00' 240 0.2
'8/2/2015 4:00' 240 0.22
'8/2/2015 5:00' 240 0.22
'8/2/2015 6:00' 240 0.27
'8/2/2015 7:00' 240 0.23
'8/2/2015 8:00' 240 0.21
'8/2/2015 9:00' 240 0.22
'8/2/2015 10:00' 240 0.22
'8/2/2015 11:00' 240 0.21
'8/2/2015 12:00' 240 0.21
'8/2/2015 13:00' 240 0.21
'8/2/2015 14:00' 240 0.22
'8/2/2015 15:00' 240 0.24
'8/2/2015 16:00' 240 0.25
'8/2/2015 17:00' 240 0.12
'8/2/2015 18:00' 240 0.32
"), header=TRUE, colClasses=c("myDate", "character", "numeric"))

对于每个 id,我想从这个键中提取匹配日期时间之前或之后 2 小时的所有观察结果:

  key <-read.table(textConnection("
datetimeUTC id
'5/1/2013 9:00' 153
'11/24/2013 14:00' 154
'8/2/2015 5:00' 240
'8/2/2015 15:00' 240"), header=TRUE, colClasses=c("myDate", "character"))

所需的结果如下所示:

  result <- read.table(textConnection("datetimeUTC  id  value
'5/1/2013 7:00' 153 0.53
'5/1/2013 8:00' 153 0.46
'5/1/2013 9:00' 153 0.44
'5/1/2013 10:00' 153 0.48
'5/1/2013 11:00' 153 0.49
'11/24/2013 12:00' 154 0.55
'11/24/2013 13:00' 154 0.61
'11/24/2013 14:00' 154 0.7
'11/24/2013 15:00' 154 0.74
'11/24/2013 16:00' 154 0.78
'8/2/2015 3:00' 240 0.2
'8/2/2015 4:00' 240 0.22
'8/2/2015 5:00' 240 0.22
'8/2/2015 6:00' 240 0.27
'8/2/2015 7:00' 240 0.23
'8/2/2015 13:00' 240 0.21
'8/2/2015 14:00' 240 0.22
'8/2/2015 15:00' 240 0.24
'8/2/2015 16:00' 240 0.25
'8/2/2015 17:00' 240 0.12
"), header=TRUE, colClasses=c("myDate", "character", "numeric"))

似乎是一项简单的任务,但我似乎无法得到我想要的。我尝试过的几件事。

result <-df[which(df$id == key$id &(df$datetimeUTC >= key$datetimeUTC -2*60*60 |df$datetimeUTC <= key$datetimeUTC + 2*60*60 )),]

library(data.table)
dt <- setDT(df)
dt[dt$datetimeUTC %between% c(dt$datetimeUTC - 2*60*60,dt$datetimeUTC + 2*60*60) ]

最佳答案

几个data.table给你的解决方案

1.笛卡尔连接

全部加入,然后过滤掉你不想要的

library(data.table)
dt <- as.data.table(df)
dt_key <- as.data.table(key)

dt_join <- dt[ dt_key, on="id", allow.cartesian=T][difftime(i.datetimeUTC, datetimeUTC, units="hours") <= 2 & difftime(i.datetimeUTC, datetimeUTC, units="hours") >= -2]

# datetimeUTC id value i.datetimeUTC
#1: 2013-05-01 07:00:00 153 0.53 2013-05-01 09:00:00
#2: 2013-05-01 08:00:00 153 0.46 2013-05-01 09:00:00
#3: 2013-05-01 09:00:00 153 0.44 2013-05-01 09:00:00
#4: 2013-05-01 10:00:00 153 0.48 2013-05-01 09:00:00
... etc

<强>2。每个 I 的条件

利用an answer对于我之前的一个问题,在 j 中指定 EACHI 在连接中必须满足的条件。

dt[ dt_key, 
{ idx = difftime(i.datetimeUTC, datetimeUTC, units="hours") <= 2 & difftime(i.datetimeUTC, datetimeUTC, units="hours") >= -2
.(datetime = datetimeUTC[idx],
value = value[idx])
},
on=c("id"),
by=.EACHI]

关于r - 子集 data.frame 基于时间间隔 + 或 - 日期列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35565149/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com