gpt4 book ai didi

r - 将原始数据帧转换为可行的时间序列

转载 作者:行者123 更新时间:2023-12-02 08:23:25 26 4
gpt4 key购买 nike

我有一个电子表格,其中记录了 40 种类似产品在不同日期的价格。看起来像这样。

date_1<-seq(as.Date("2010-01-01"), as.Date("2011-01-01"), length.out = 40)
date_2<-seq(as.Date("2011-01-01"), as.Date("2012-01-01"), length.out = 40)
date_3<-seq(as.Date("2012-01-01"), as.Date("2013-01-01"), length.out = 40)
date_4<-seq(as.Date("2013-01-01"), as.Date("2014-01-01"), length.out = 40)
date_5<-seq(as.Date("2014-01-01"), as.Date("2015-01-01"), length.out = 40)
date_6<-seq(as.Date("2015-01-01"), as.Date("2016-01-01"), length.out = 40)

price_1<-floor(seq(20, 50, length.out = 40))
price_2<-floor(seq(20, 60, length.out = 40))
price_3<-floor(seq(20, 70, length.out = 40))
price_4<-floor(seq(30, 80, length.out = 40))
price_5<-floor(seq(40, 100, length.out = 40))
price_6<-floor(seq(50, 130, length.out = 40))

data.frame(date_1,price_1,date_2,price_2,date_3,price_3,date_4,price_4,date_5,price_5,date_6,price_6)

问题是,代表日期和价格的列交替出现(便于记录保存)。我如何将上述数据转换为一个新的数据框,该数据框仅包含这 40 种产品的价格作为行,日期作为列名?这将生成很多 NA,因为每列中的日期不同,但没关系。

最佳答案

在处理时间序列数据时,即使您的目标输出很宽(每个时间序列一行),使用长格式(每个观察一行)通常很有帮助。这里有三种可能的方法来将它变成长格式,然后加宽:

1。基础 reshape()

要获得长格式,base reshape 绝对是一个强大的选择。以下解决方案改进了公认的解决方案,因为它适用于任意数量的产品和观察结果,并消除了不必要的步骤:

df <- data.frame(date_1,price_1,date_2,price_2,date_3,price_3,
date_4,price_4,date_5,price_5,date_6,price_6)

# no need to create an id variable
long_form <- reshape(df, # idvar="id" by default
varying = list(grep('date_',names(df), value=TRUE),
grep('price_',names(df), value=TRUE) ),
v.names=c("date","price"),
direction="long",
sep="_")

reshape也可以加宽。 (我们将在下面的另一种方法中使用 spread。)

wide_form <- reshape(long_form, drop='time', timevar='date', direction='wide')  

2。 data.table melt()dcast()(在真实数据集上可能更快)

确保您有 data.table v1.9.6 或更高版本,它允许您熔化多列。

library(data.table)
setDT(df)
melt.data.table(df[, prod_id := .I], # product id = original row number
measure.vars = list(grep('date_',names(df), value=TRUE),
grep('price_',names(df), value=TRUE) ),
variable.name = 'sequence',
value.name = c('date','price'),
id.vars = 'prod_id') -> long_form

在这种情况下你不使用序列,所以要获得宽形式就是:

dcast.data.table(long_form[, !'sequence', with=FALSE], 
value.var = 'price', # optional (function guesses correctly)
prod_id ~ date) -> wide_form

3。 tidyr & dplyr split-apply-combine(简单易懂)

它不需要reshape 那样的心理训练(至少对我而言)。它是“拆分-应用-组合”范式的按列变体。

library(dplyr); library(tidyr)

# Create long-form time series data
# Split table into sequenced prices and dates, then combine on product and sequence
full_join(
df %>%
select(starts_with('date_')) %>% #~~~~ Left side = date component ~~~~~~~~
mutate(prod_id = 1:nrow(df)) %>% #~ product id = original row number ~
gather(sequence, date, -prod_id) %>% #~ long form = 1 row per prod per seq ~
mutate(sequence = #~~~ Cols: product_id, sequence, date ~~~
sub('^date_(\\d+)$', '\\1', sequence) ) ,
df %>%
select(starts_with('price_')) %>% #~~~ Right side = price component ~~~~~~~
mutate(prod_id = 1:nrow(df)) %>% #~ ~
gather(sequence, price, -prod_id) %>% #~ same idea ~
mutate(sequence = #~~ Cols: product_id, sequence, price ~~~
sub('^price_(\\d+)$', '\\1', sequence) )
) -> long_form

在这种情况下你不需要序列,所以要得到宽形式它很简单:

long_form %>% select(-sequence) %>% spread(date, price) -> wide_form

正如上面其他人所指出的。

关于r - 将原始数据帧转换为可行的时间序列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34611766/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com