gpt4 book ai didi

r - `spread= a - b` 用 `dplyr` 和 `data.table` 计算 tall 数据

转载 作者:行者123 更新时间:2023-12-04 11:13:22 25 4
gpt4 key购买 nike

我有一些 tall 格式的(金融时间序列)数据:

require(data.table)
DT <- data.table(Variable=c(rep("a",times = 3), rep("b", times=3)),
Date=as.Date(c("2014-04-01","2014-04-02","2014-04-03"
,"2014-04-02", "2014-04-03","2014-04-04")),
Value=c(1:3,3:1), key=c("Variable","Date"))

DT

   Variable       Date Value
1: a 2014-04-01 1
2: a 2014-04-02 2
3: a 2014-04-03 3
4: b 2014-04-02 3
5: b 2014-04-03 2
6: b 2014-04-04 1

我想计算第三个变量 spread,其中 spread = a - b 对于每个常见的 Date 行(基本上是两个时间序列 - 金融领域的常见转换)。

期望的输出:

   Variable       Date Value
1: spread 2014-04-02 -1
2: spread 2014-04-03 1

当我 dcast.data.table 将数据转换为宽格式(即转换为包含 c("Date", "a", "b") 列的表时,我知道解决方案), 但由于大数据的性能问题,是否有一种优雅的方法可以使用 a)dplyr 和 b)data.table< 以 tall 格式直接执行此操作(两部分问题)?

理想情况下,在 dplyr 方面,我正在寻找像 mutate(tbl_dt(DT, tall=TRUE), spread=a-b) 这样富有表现力的东西。 (免责声明:我是 dplyr 的新手)

真实数据集:

# download 200 stocks from Quandl.com. requires free registration
library(Quandl); library(data.table); library(plyr)
ntickers <- 200 ; auth.token="register_free_to_obtain_token"
code.file <- tempfile()
download.file("https://s3.amazonaws.com/quandl-static-content/quandl-stock-code-list.csv",
destfile=code.file)
tickers <- na.omit(read.csv2(code.file, sep=",", stringsAsFactors=FALSE)[,"Price.Code"])
lst <- na.omit(tickers)[1:ntickers]
names(lst) <- lst
Q <- ldply(lst, Quandl,
type = "raw", end_date="2014-04-08",
sort="asc", auth=auth.token) # might take minutes
DT <- as.data.table(Q)[,Date:=as.IDate(Date)]
setnames(DT, ".id", "Instrument")
setkey(DT, Instrument, Date)

> dim(DT); object.size(DT)
[1] 685512 8
41145752 bytes
> DT
Instrument Date Open High Low Close Volume Adjusted Close
1: GOOG/AMEX_ABI 1981-03-11 NA NA 6.56 6.75 217200 NA
2: GOOG/AMEX_ABI 1981-03-12 NA NA 6.66 6.88 616400 NA
3: GOOG/AMEX_ABI 1981-03-13 NA NA 6.81 6.84 462000 NA
4: GOOG/AMEX_ABI 1981-03-16 NA NA 6.81 7.00 306400 NA
5: GOOG/AMEX_ABI 1981-03-17 NA NA 6.88 6.88 925600 NA
---
685508: YAHOO/TSX_AHX_TO 2014-04-02 0.75 0.75 0.75 0.75 5000 0.75
685509: YAHOO/TSX_AHX_TO 2014-04-03 0.79 0.82 0.75 0.82 25700 0.82
685510: YAHOO/TSX_AHX_TO 2014-04-04 0.81 0.81 0.78 0.80 4500 0.80
685511: YAHOO/TSX_AHX_TO 2014-04-07 0.80 1.05 0.80 0.96 40400 0.96
685512: YAHOO/TSX_AHX_TO 2014-04-08 0.95 0.96 0.90 0.95 21300 0.95

最佳答案

你应该能够使用这个:

> merge(DT["a", ], DT["b",], by="Date")
Date Variable.x Value.x Variable.y Value.y
1: 2014-04-02 a 2 b 3
2: 2014-04-03 a 3 b 2

merge.data.table 的帮助页面建议您阅读 FAQ 1.12 以详细比较它与 X[Y,...] 方法。

关于r - `spread= a - b` 用 `dplyr` 和 `data.table` 计算 tall 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22924451/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com