gpt4 book ai didi

r - 如何查找监控位置的开始和结束日期

转载 作者:行者123 更新时间:2023-12-02 08:42:44 34 4
gpt4 key购买 nike

我有来自 NCDC 的气象数据集,其中每个站点有 30 到 70 年的每小时观测数据。每条记录包括气象站的 ID、纬度、经度和海拔。一个站(站点)可以在70年内多次移动,而无需更改站名或ID。我想制作一个不同位置的“站点历史记录”列表,由纬度、经度和/或海拔(纬度、经度、海拔)的变化表示。我的 R 代码可以工作,直到我发现一个电台在几次移动后返回到旧位置。这破坏了我的 R 代码。

一个站点的数据大约有770000行和35列。我正在使用数据表。

具有两个站点“A”和“B”的简化示例数据集:

require("data.table")   # ver 1.9.5
DT=data.table(site=c(rep("A",8),rep("B",4)),
date=c(seq(from=as.POSIXct("2014-03-01",tz="GMT"), by="day", length.out=8),
seq(from=as.POSIXct("2014-07-01",tz="GMT"), by="day", length.out=4)),
lat=c(rep(30.1,3),rep(30.2,3),rep(30.1,2),rep(40.3,2),rep(40.4,2)),
lon=rep(50.7,12),
elev=c(35.0,35,36,36,35,35,35,35,51,52,52,52),
x=as.numeric(1:12)) # x is some meteorological data
setkey(DT,site,date)
DT
# site date lat lon elev x
# 1: A 2014-03-01 01:00:00 30.1 50.7 35 1
# 2: A 2014-03-02 01:00:00 30.1 50.7 35 2
# 3: A 2014-03-03 01:00:00 30.1 50.7 36 3
# 4: A 2014-03-04 01:00:00 30.2 50.7 36 4
# 5: A 2014-03-05 01:00:00 30.2 50.7 35 5
# 6: A 2014-03-06 01:00:00 30.2 50.7 35 6
# 7: A 2014-03-07 01:00:00 30.1 50.7 35 7
# 8: A 2014-03-08 01:00:00 30.1 50.7 35 8
# 9: B 2014-07-01 02:00:00 40.3 50.7 51 9
# 10: B 2014-07-02 02:00:00 40.3 50.7 52 10
# 11: B 2014-07-03 02:00:00 40.4 50.7 52 11
# 12: B 2014-07-04 02:00:00 40.4 50.7 52 12

每个站点的唯一位置列表是:

DT.loc <- unique(DT[,.(site,lat,lon,elev)])
DT.loc
# site lat lon elev
# 1: A 30.1 50.7 35
# 2: A 30.1 50.7 36
# 3: A 30.2 50.7 36
# 4: A 30.2 50.7 35
# 5: B 40.3 50.7 51
# 6: B 40.3 50.7 52
# 7: B 40.4 50.7 52

这将是我所需要的大部分内容,但请注意 DT 第 7-8 行中的站“A”返回到第一个位置。

所需的输出是位置列表,其中包含某个位置的每个观测周期的第一个和最后一个日期。

#    site          date.first           date.last  lat  lon elev
# 1: A 2014-03-01 01:00:00 2014-03-02 01:00:00 30.1 50.7 35
# 2: A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7 36
# 3: A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7 36
# 4: A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7 35
# 5: A 2014-03-07 01:00:00 2014-03-08 01:00:00 30.1 50.7 35
# 6: B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7 51
# 7: B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7 52
# 8: B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7 52

我最初使用以下代码来生成类似的列表,但它没有标识返回到旧位置。

# find first occurence of each location. 
# This requires DT to be keyed on site,lat,lon,elev,date
setkey(DT,site,lat,lon,elev,date)
DT.loc.first <- DT[DT.loc, mult="first", which=TRUE]
# find last occurence of each location
DT.loc.last <- DT[DT.loc, mult="last", which=TRUE]
# get first rows and select columns for history table
DT.hist <- DT[DT.loc.first, .(site,date.first=date,lat,lon,elev)]
# add date from last row for location
DT.hist[, date.last:=DT[DT.loc.last,date]]
# rearrange and sort the history table
DT.hist <- DT.hist[,.(site,date.first,date.last,lat,lon,elev)]
setkey(DT.hist,site,date.first)
DT.hist
# site date.first date.last lat lon elev
# 1: A 2014-03-01 01:00:00 2014-03-08 01:00:00 30.1 50.7 35
# 2: A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7 36
# 3: A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7 36
# 4: A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7 35
# 5: B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7 51
# 6: B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7 52
# 7: B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7 52

第一个位置的 date.last 实际上是第二次占用第一个位置的 date.last,并且应该有一个单独的行(在上面第 4 行之后),因为站点“A”实际上有 5 个观测周期.

如何创建所需的电台历史记录,其中包含某个位置每个连续时段的第一个和最后一个日期?

最佳答案

Arun 在对 Khashaa 答案的评论中的优雅回答:

# making use of DT's sort order on site,date:
DT.hist <- DT[, .(date.first=date[1L], date.last=date[.N]),
by=.(rleid(site,lat,lon,elev),site,lat,lon,elev)]

# select columns and set sort key of result
DT.hist <- DT.hist[,.(date.last,lat,lon,elev),keyby=.(site,date.first)]
DT.hist
# site date.first date.last lat lon elev
# 1: A 2014-03-01 01:00:00 2014-03-02 01:00:00 30.1 50.7 35
# 2: A 2014-03-03 01:00:00 2014-03-03 01:00:00 30.1 50.7 36
# 3: A 2014-03-04 01:00:00 2014-03-04 01:00:00 30.2 50.7 36
# 4: A 2014-03-05 01:00:00 2014-03-06 01:00:00 30.2 50.7 35
# 5: A 2014-03-07 01:00:00 2014-03-08 01:00:00 30.1 50.7 35
# 6: B 2014-07-01 02:00:00 2014-07-01 02:00:00 40.3 50.7 51
# 7: B 2014-07-02 02:00:00 2014-07-02 02:00:00 40.3 50.7 52
# 8: B 2014-07-03 02:00:00 2014-07-04 02:00:00 40.4 50.7 52

这将创建历史表,而无需修改 DT 或更改 DT 的键。将 site,lat,lon,elev 添加到 by= 会干净地将这些列添加到输出中,即使它们不会更改分组(对 rleid 来说是冗余的)。

或者,by= 中不包含 site,lat,lon,elev:

DT.hist2 <- DT[, .(date.first=date[1L], date.last=date[.N],
lat=lat[1L], lon=lon[1L], elev=elev[1L]),
by=.(rleid(site,lat,lon,elev))]

但这需要更多的输入,并且不易于阅读。

关于r - 如何查找监控位置的开始和结束日期,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29490812/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com