gpt4 book ai didi

R xts - 将不等时间步长 xts 重新采样为等距时间序列

转载 作者:行者123 更新时间:2023-12-04 17:01:41 29 4
gpt4 key购买 nike

我正在使用 xts 时间序列在 R 中工作。

我有什么:
具有不等间隔时间步长的时间序列数据集。

我想得到什么:
具有等距时间步长的时间序列,其值对应于与时间步长重叠的原始值的比例(请参见下面的示例)。

示例:像这样的原创系列:

sample_xts <- as.xts(read.zoo(text='
2016-07-01 00:00:20, 0.0
2016-07-01 00:01:20, 60.0
2016-07-01 00:01:50, 30.0
2016-07-01 00:02:30, 40.0
2016-07-01 00:04:20, 110.0
2016-07-01 00:05:30, 140.0
2016-07-01 00:06:00, 97.0
2016-07-01 00:07:12, 144.0
2016-07-01 00:08:09, 0.0
', sep=',', index=1, tz='', format="%Y-%m-%d %H:%M:%S"))
names(sample_xts) <- c('x')

我想得到一个等距时间序列,如下所示:
                         x
2016-07-01 00:00:00, 0.0
2016-07-01 00:01:00, 40.0
2016-07-01 00:02:00, 60.0
2016-07-01 00:03:00, 60.0
2016-07-01 00:04:00, 60.0
2016-07-01 00:05:00, 100.0
2016-07-01 00:06:00, 157.0
2016-07-01 00:07:00, 120.0
2016-07-01 00:08:00, 24.0
2016-07-01 00:09:00, 0.0

笔记:
  • 一些原始时间步长小于新的时间步长,而
    其他的更大。
  • x 的 colSums 保持不变(即 621)。

  • 这是我用来创建上述示例的草图(可能有助于说明我想做什么):
    illustration of resampling

    我想要的方法不仅限于创建 1 分钟的时间步长系列,而且通常适用于任何固定的时间步长。

    我在 stackoverflow 上查看了许多 q/a 并尝试了许多不同的东西,但没有成功。

    任何帮助将不胜感激!谢谢。

    最佳答案

    这是我使用 zoo 编写的一些代码- 我没用过 xts所以我不知道是否可以应用相同的功能。希望有帮助!

    函数

    以下函数计算原始数据的每个区间与给定区间重叠的分数(注意:在以下所有代码中,变量名 ta1ta2 指的是给定的开始和结束时间间隔(例如,您需要作为输出的每个相等间隔),而 tb1tb2 指的是原始数据(不等)间隔的开始和结束):

    frac.overlap <- function(ta1,ta2,tb1,tb2){
    if(tb1 <= ta1 & tb2 >= ta2) { # Interval 2 starts earlier and ends later than interval 1
    frac <- as.numeric(difftime(ta2,ta1,units="secs"))/as.numeric(difftime(tb2,tb1,units="secs"))
    } else if(tb1 >= ta1 & tb2 <= ta2) { # Interval 2 is fully contained within interval 1
    frac <- 1
    } else if(tb1 <= ta1 & tb2 >= ta1) { # Interval 2 partly overlaps with interval 1 (starts earlier, ends earlier)
    frac <- as.numeric(difftime(tb2,ta1,units="secs"))/as.numeric(difftime(tb2,tb1,units="secs"))
    } else if (tb1 <= ta2 & tb2 >= ta2){ # Interval 2 partly overlaps with interval 1 (starts later, ends later)
    frac <- as.numeric(difftime(ta2,tb1,units="secs"))/as.numeric(difftime(tb2,tb1,units="secs"))
    } else { # No overlap
    frac <- 0
    }

    return(frac)
    }

    下一个函数确定原始数据集的哪些记录与当前考虑的区间重叠 ta1 - ta2 :
    check.overlap <- function(ta1,ta2,tb1,tb2){
    ov <- vector("logical",4)
    ov[1] <- (tb1 <= ta1 & tb2 >= ta2) # Interval 2 starts earlier and ends later than interval 1
    ov[2] <- (tb1 >= ta1 & tb2 <= ta2) # Interval 2 is fully contained within interval 1
    ov[3] <- (tb1 <= ta1 & tb2 >= ta1) # Interval 2 partly overlaps with interval 1 (starts earlier, ends earlier)
    ov[4] <- (tb1 <= ta2 & tb2 >= ta2) # Interval 2 partly overlaps with interval 1 (starts later, ends later)
    return(as.logical(sum(ov))) # Gives TRUE if at least one element of ov is TRUE, otherwise FALSE
    }

    (注意:这适用于您提供的样本数据,但在更大的数据集上,我发现它非常慢。由于我编写了此代码以使用固定时间步长对时间序列进行重新采样,因此我通常使用固定间隔来完成这一步,这明显更快。根据原始数据的间隔修改代码(参见下一个函数的代码)以加快这一步可能很容易。)

    下一个函数使用前两个函数来计算区间 ta1 的重采样值- ta2 :
    fracres <- function(tstart,interval,input){
    # tstart: POSIX object
    # interval: length of interval in seconds
    # input: zoo object

    ta1 <- tstart
    ta2 <- tstart + interval

    # First, determine which records of the original data (input) overlap with the current
    # interval, to avoid going through the whole object at every iteration
    ind <- index(input)
    ind1 <- index(lag(input,-1))
    recs <- which(sapply(1:length(ind),function(x) check.overlap(ta1,ta2,ind[x],ind1[x])))
    #recs <- which(abs(as.numeric(difftime(ind,ta1,units="secs"))) < 601)


    # For each record overlapping with the current interval, return the fraction of the input data interval contained in the current interval
    if(length(recs) > 0){
    fracs <- sapply(1:length(recs), function(x) frac.overlap(ta1,ta2,ind[recs[x]],ind1[recs[x]]))
    return(sum(coredata(input)[recs]*fracs))

    } else {
    return(0)
    }
    }

    (注释掉的行显示了如果已知原始时间步长和新时间步长之间的最大时间差,如何获取相关记录。)

    申请

    首先,让我们将样本数据读入 zoo目的:
    sample_zoo <- read.zoo(text='
    2016-07-01 00:00:20, 0.0
    2016-07-01 00:01:20, 60.0
    2016-07-01 00:01:50, 30.0
    2016-07-01 00:02:30, 40.0
    2016-07-01 00:04:20, 110.0
    2016-07-01 00:05:30, 140.0
    2016-07-01 00:06:00, 97.0
    2016-07-01 00:07:12, 144.0
    2016-07-01 00:08:09, 0.0
    ', sep=',', index=1, tz='', format="%Y-%m-%d %H:%M:%S")

    看起来您的数据集包含瞬时值(“在 01:20 处, x 的值为 60”)。由于我为求和值编写了这段代码,因此时间戳的含义不同(“从 01:20 开始的记录的值为 60”)。为了解决这个问题,需要转移记录:
    sample_zoo <- lag(sample_zoo,1)

    然后,我们定义一个序列 POSIXct对应于所需分辨率的对象:
    time.out <- seq.POSIXt(from=as.POSIXct("2016-07-01"),to=(as.POSIXct("2016-07-01")+(60*9)),by="1 min")

    然后我们可以应用函数 fracres , 如上所述:
    data.out <- sapply(1:length(time.out), function(x) fracres(tstart=time.out[x],interval=60,input=sample_zoo))

    索引和数据组合成一个 zoo目的:
    zoo.out <- read.zoo(data.frame(time.out,data.out))

    最后,时间序列再次移动一步,与之前的方向相反:
    zoo.out <- lag(zoo.out,-1)

    2016-07-01 00:01:00 2016-07-01 00:02:00 2016-07-01 00:03:00 2016-07-01 00:04:00 2016-07-01 00:05:00 2016-07-01 00:06:00 2016-07-01 00:07:00 2016-07-01 00:08:00 2016-07-01 00:09:00
    40 60 60 60 100 157 120 24 0

    关于R xts - 将不等时间步长 xts 重新采样为等距时间序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38784377/

    29 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com