gpt4 book ai didi

r - 如何最好地将 data.table 的一列与同一 data.table 的另一列连接起来?

转载 作者:行者123 更新时间:2023-12-03 16:23:58 24 4
gpt4 key购买 nike

我的资料

我有一个数据表 DT当前 ( F0YR ) 和下一个 ( F1YR ) 财政年度结束 (FYE) 编码为整数。由于每个下一个 FYE 最终都会变成
当前 FYE,整数将同时出现在 F1YR 列中和 F0YR .此外,我的数据包含每月观察结果,因此数据集中将包含相同的 FYE
多次:

library(data.table)
DT <- data.table(ID = rep(c("A", "B"), each=9),
MONTH = rep(100L:108L, times=2),
F0YR = rep(c(1L, 4L, 7L), each=3, times=2),
F1YR = rep(c(4L, 7L, 9L), each=3, times=2),
value = c(rep(1:5, each=3), 6, 6, 7),
key = "ID,F0YR")
DT
ID MONTH F0YR F1YR value
[1,] A 100 1 4 1
[2,] A 101 1 4 1
[3,] A 102 1 4 1
[4,] A 103 4 7 2
[5,] A 104 4 7 2
[6,] A 105 4 7 2
[7,] A 106 7 9 3
[8,] A 107 7 9 3
[9,] A 108 7 9 3
[10,] B 100 1 4 4
[11,] B 101 1 4 4
...

我想做的事

IDF1YR组合,我想获得 ID 的值和 F0YR组合。例如:A 公司的值为 2FOYR==4 .现在,
我想要一个额外的列,用于与 ID=="A" 的所有组合和 F1YR==4设置为 2,紧挨着已经存在的值 1。

我试过的
intDT <- DT[CJ(unique(ID), unique(F0YR)), list(ID, F0YR, valueNew = value), mult="last"]
setkey(intDT, ID, F0YR)
setkey(DT, ID, F1YR)
DT <- intDT[DT]
setnames(DT, c("F0YR.1", "F0YR"), c("F0YR", "F1YR"))
DT
ID F1YR valueNew MONTH F0YR value
[1,] A 4 2 100 1 1
[2,] A 4 2 101 1 1
[3,] A 4 2 102 1 1
[4,] A 7 3 103 4 2
[5,] A 7 3 104 4 2
[6,] A 7 3 105 4 2
[7,] A 9 NA 106 7 3
[8,] A 9 NA 107 7 3
[9,] A 9 NA 108 7 3
[10,] B 4 5 100 1 4
[11,] B 4 5 101 1 4
...

(请注意,我在这里使用 mult="last" 因为,虽然这些值应该只随着 F0YR 或 F1YR 的变化而变化,但有时它们不会发生变化,这只是我的
决胜局)。

我想要的是

这看起来可以改进。首先,我必须复制我的 DT。二、自从我加入基本一样 data.table , 所有列名都具有相同的名称
我必须重命名它们。我以为是 self join将是前进的道路,但我尝试了又尝试,但无法得到一个很好的解决方案。我有希望
有一些简单的东西我只是没有看到......有没有人有线索?或者我的数据设置方式实际上很难
(也许是因为我有每月观察,但只想加入每季度或每年的变化值)。

最佳答案

在这样的用例中,“先聚合,然后加入”的口头禅通常会有所帮助。因此,从您的 DT 开始,并使用 v1.8.1 :

> agg = DT[,last(value),by=list(ID,F0YR)]
> agg
ID F0YR V1
1: A 1 1
2: A 4 2
3: A 7 3
4: B 1 4
5: B 4 5
6: B 7 7

我叫它 agg因为我想不出更好的名字。在这种情况下,您想要 last这并不是真正的聚合,但你知道我的意思。

然后更新 DT按组引用。这里我们按 i 分组.
setkey(DT,ID,F1YR)
DT[agg,newcol:=V1]
ID MONTH F0YR F1YR value newcol
1: A 100 1 4 1 2
2: A 101 1 4 1 2
3: A 102 1 4 1 2
4: A 103 4 7 2 3
5: A 104 4 7 2 3
6: A 105 4 7 2 3
7: A 106 7 9 3 NA
8: A 107 7 9 3 NA
9: A 108 7 9 3 NA
10: B 100 1 4 4 5
11: B 101 1 4 4 5
12: B 102 1 4 4 5
13: B 103 4 7 5 7
14: B 104 4 7 5 7
15: B 105 4 7 5 7
16: B 106 7 9 6 NA
17: B 107 7 9 6 NA
18: B 108 7 9 7 NA

那正确吗?不确定我是否完全遵循。这些操作应该非常快,没有任何副本,并且应该可以扩展到大数据。至少,这是意图。

关于r - 如何最好地将 data.table 的一列与同一 data.table 的另一列连接起来?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11030614/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com