gpt4 book ai didi

r - 根据日期计算数据表中的前几行

转载 作者:行者123 更新时间:2023-12-01 13:52:37 25 4
gpt4 key购买 nike

(如果这里的某些术语被关闭,请道歉 - 我来自 SQL 背景,我只是刚刚进入 R 世界)

我有一个包含一系列按日期排序的条目的数据表。数据表中的字段之一是分组值,一个是时间值。
随着数据按组排序(或键入 - 我是 R 的新手,但仍然不确定差异)然后日期,我想计算,对于每一行,该组中有多少行在当前行之前(包括当前),在给定的时间跨度内。

这是我尝试做的事情的一个简化示例,使用 Loblolly 数据集:

准备示例数据:

library(lubridate)
library(zoo)
library(data.table)
DT = as.data.table(Loblolly)
DT[,rd := Sys.time() + years(age)]
setkey(DT,Seed,rd)

现在我们有一个按 Seed(组)和 rd(我的日期列)排序的数据表。我有一个解决方案,它将根据 10 年的时间间隔产生我的计数值 (ct):
DT[,.ct:=mapply(function(x,y) DT[(rd>x-years(10) & rd<=x &Seed==y),.N],DT$rd,DT$Seed)]

这会在此示例数据集中产生所需的结果:
    height age Seed                  rd  ct
1: 3.93 3 329 2019-03-01 13:38:00 1
2: 9.34 5 329 2021-03-01 13:38:00 2
3: 26.08 10 329 2026-03-01 13:38:00 3
4: 37.79 15 329 2031-03-01 13:38:00 2
5: 48.31 20 329 2036-03-01 13:38:00 2
6: 56.43 25 329 2041-03-01 13:38:00 2
7: 4.12 3 327 2019-03-01 13:38:00 1
8: 9.92 5 327 2021-03-01 13:38:00 2
9: 26.54 10 327 2026-03-01 13:38:00 3
10: 37.82 15 327 2031-03-01 13:38:00 2
...
...

但是,我需要将其扩展到超过 500 万条记录,跨越大约 10,000 个组,并且在那里运行需要很长的时间。有没有更快、更不笨拙的方法来做我想做的事情?

最佳答案

这是使用 data.table::foverlaps 的可能解决方案.这里的想法是首先在 {Sys.time() - years(10), Sys.time() + years(age)} 的整个范围内加入。 .然后,仅计算差异小于 <= 10 年的实例。

DT <- as.data.table(Loblolly)
DT[, c("rd", "rd2") := Sys.time() + years(age)] # create identical columns so foverlaps will work
setkey(DT, Seed, rd, rd2) # key by all for same reason
DT2 <- DT[, .(Seed, rd = rd - years(10), rd2, indx = .I)] # create minum range, create index to store row number
DT[, ct := foverlaps(DT, DT2)[i.rd > rd, .N, by = indx]$N] # run foverlaps, subset by condition and count
head(DT, 10)
# height age Seed rd rd2 ct
# 1: 3.93 3 329 2019-03-01 22:59:02 2019-03-01 22:59:02 1
# 2: 9.34 5 329 2021-03-01 22:59:02 2021-03-01 22:59:02 2
# 3: 26.08 10 329 2026-03-01 22:59:02 2026-03-01 22:59:02 3
# 4: 37.79 15 329 2031-03-01 22:59:02 2031-03-01 22:59:02 2
# 5: 48.31 20 329 2036-03-01 22:59:02 2036-03-01 22:59:02 2
# 6: 56.43 25 329 2041-03-01 22:59:02 2041-03-01 22:59:02 2
# 7: 4.12 3 327 2019-03-01 22:59:02 2019-03-01 22:59:02 1
# 8: 9.92 5 327 2021-03-01 22:59:02 2021-03-01 22:59:02 2
# 9: 26.54 10 327 2026-03-01 22:59:02 2026-03-01 22:59:02 3
# 10: 37.82 15 327 2031-03-01 22:59:02 2031-03-01 22:59:02 2

编辑 2017 年 3 月 17 日:

使用 data.table v1.10.4+,您现在可以将非 uqui 连接与 by = .EACHI 结合使用.这基本上允许您使用 >= 加入。和 <=而不仅仅是精确连接,并在连接时运行计算(为了避免像您的情况那样的笛卡尔连接)并仅返回最终结果。所以在你的具体情况下你可以做
DT[, rd10 := rd - years(10)]
DT[, ct := DT[DT, .N, on = .(Seed, rd <= rd, rd > rd10), by = .EACHI]$N]

关于r - 根据日期计算数据表中的前几行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35725815/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com