gpt4 book ai didi

r - For() 循环到 ID 之间的日期并计算平均值

转载 作者:行者123 更新时间:2023-12-04 04:41:13 25 4
gpt4 key购买 nike

这是“R:For() 循环检查日期是否在单独对象中的两个日期之间”的重新发布,在 Henrik 和 Metrics 的建议之后,已将其更改为包含最小的模拟/测试。感谢他们。

我有两个大型数据集,都包含日期/时间字段列。我的第一个数据集有一个日期,第二个数据集有两个日期。简而言之,我试图从第一个数据集中找到第二个其他两个日期之间的所有日期,然后找到一个平均值。为了清楚起见,我使用值而不是日期创建了一个模拟的最小数据集。

下面是我的第一个模拟数据集的 head() 以及 dput() 输出。该数据特定于 IndID 列所注明的个人。

  IndID MockDate RandNumber
1 1 5 1.862084
2 1 3 1.103154
3 1 5 1.373760
4 1 1 1.497397
5 1 1 1.319488
6 1 3 2.120354

actData <- structure(list(IndID = c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L,
2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L,
3L, 3L, 3L, 3L, 3L), MockDate = c(5L, 3L, 5L, 1L, 1L, 3L, 4L,
2L, 2L, 5L, 2L, 1L, 5L, 3L, 5L, 3L, 5L, 3L, 5L, 1L, 5L, 3L, 5L,
5L, 2L, 3L, 1L, 4L, 3L, 3L), RandNumber = c(1.862083679, 1.103154127,
1.37376001, 1.497397482, 1.319487885, 2.120353884, 1.895660195,
1.150411874, 2.61036961, 1.99354158, 1.547706758, 1.941501873,
1.739226419, 2.455590044, 2.907382515, 2.110502618, 2.076187012,
2.507527308, 2.167657681, 1.662405916, 2.428807116, 2.04699653,
1.937335768, 1.456518889, 1.948952907, 2.104325112, 2.311519732,
2.092650229, 2.109051215, 2.089144475)), .Names = c("IndID",
"MockDate", "RandNumber"), class = "data.frame", row.names = c(NA,
-30L))

下面是我的第二个模拟数据集的 head() 以及 dput() 输出。
 IndID StartTime EndTime
1 1 4 5
2 1 7 11
3 1 6 9
4 1 7 9
5 1 6 10
6 1 2 12

clstrData <- structure(list(IndID.1 = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L,
2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L), StartTime = c(4L, 7L,
6L, 7L, 6L, 2L, 6L, 4L, 3L, 5L, 2L, 5L, 7L, 3L, 4L, 3L, 2L, 5L,
5L), EndTime = c(5L, 11L, 9L, 9L, 10L, 12L, 8L, 13L, 5L, 13L,
9L, 9L, 17L, 6L, 8L, 6L, 9L, 15L, 7L)), .Names = c("IndID",
"StartTime", "EndTime"), row.names = c(NA, 19L), class = "data.frame")

第二个数据集有两个数字字段,表示开始时间和结束时间。如上所述,这些数据也特定于 IndD 列所指出的个人。

当“MockDate”介于每个唯一 IndID 的第二个数据集的“StartTime”和“EndTime”之间时,我需要对所有实例的数据集一中的“RandNumber”进行平均。因此,“RandNumber”值应该仅在 1) 它们在“StartTime”和“EndTime”内并且 2) 两行的 IndID 相同时才应取平均值。

如果 MockDate 在 StartTime 和 EndTime 之间,我首先创建了一个 ID 函数
is.between <- function(x, a, b) {
x > a & x < b
}

测试该函数适用于单个值
is.between(actData[1,3], clstrData[,2], clstrData[,3])

但无法弄清楚如何为所有行循环这个,然后找到平均值。我的 for() 循环开始如下。
YesNo <- list()
for (i in 1:nrow(actData)) {
YesNo[[i]] <- is.between(actData[1,3], clstrData[,2], clstrData[,3])
}
YesNo[[3]]

这个 for() 对所有行给出相同的结果......

希望创造...
clstrData$NEWcolum <- 每行的平均值 RandNum。

谢谢,和往常一样,非常感谢任何建议!

最佳答案

假设您的机器可以处理数据大小,您可以:

  • 合并ID上的两个数据框,然后
  • 相应地分组(即,按 IndID、开始和结束日期)
  • 计算模拟日期落在结束日期之间的那些行的平均值

  • 这是一些使用 data.table 的代码
    library(data.table)
    DT.clstr <- data.table(clstrData, key="IndID")
    DT.act <- data.table(actData, key="IndID")

    # Adjust to `<=` if needed
    ComputedDT <-
    merge(DT.clstr, DT.act, allow.cartesian=TRUE)[
    MockDate > StartTime & MockDate < EndTime
    , list(Mean=mean(RandNumber))
    , by=list(IndID, StartTime, EndTime)
    ]

    结果
    ComputedDT

    IndID StartTime EndTime Mean
    1: 1 2 12 1.671002
    2: 2 4 13 2.176799
    3: 2 2 9 2.244702
    4: 3 3 6 1.978828
    5: 3 4 8 1.940887
    6: 3 2 9 2.033104

    关于r - For() 循环到 ID 之间的日期并计算平均值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18860422/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com