gpt4 book ai didi

r - 按组汇总data.table

转载 作者:行者123 更新时间:2023-12-02 18:21:49 26 4
gpt4 key购买 nike

我正在使用 R 中的一个巨大数据表,其中包含由不同来源获取的多个位置的每月温度测量值。

数据集如下所示:

library(data.table)

# Generate random data:
loc <- 1:10
dates <- seq(as.Date("2000-01-01"), as.Date("2004-12-31"), by="month")
mods <- c("A","B", "C", "D", "E")
temp <- runif(length(loc)*length(dates)*length(mods), min=0, max=30)
df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp)

基本上,对于位置 1,我有模型 A 从 2000 年 1 月到 2004 年 12 月进行的测量。然后,我有模型 B 进行的测量。模型 C、D 和 E 依此类推。然后,依此类推。对于位置 2 到位置 10。

我需要做的是,获取所有模型的平均温度,而不是进行五种不同的温度测量(来自模型)。

因此,对于每个地点和每个日期,我不会进行五次温度测量,而是只有一次温度测量(这将是多模型平均值)。

我尝试过这个:

df2 <- df[, Mean:=mean(Temperature), by=list(Model, Location, Date)]

它没有像我预期的那样工作。我至少期望生成的数据表是原始表行数的 1/5,因为我将五个测量值汇总为一个测量值。

我做错了什么?

最佳答案

我认为您没有正确生成测试数据。函数expand.grid()取所有参数的笛卡尔积。我不确定为什么您在 expand.grid() 调用中包含 Temperature=temp 参数;为每个按键组合复制每个温度值,从而生成一个包含 900 万行的 data.table(即 (10*60*5)^2)。我认为您希望每个键有一个温度值,这应该导致 10*60*5 行:

df <- data.table(expand.grid(Location=loc,Date=dates,Model=mods),Temperature=temp);
df;
## Location Date Model Temperature
## 1: 1 2000-01-01 A 2.469751
## 2: 2 2000-01-01 A 16.103135
## 3: 3 2000-01-01 A 7.147051
## 4: 4 2000-01-01 A 10.301937
## 5: 5 2000-01-01 A 16.760238
## ---
## 2996: 6 2004-12-01 E 26.293968
## 2997: 7 2004-12-01 E 8.446528
## 2998: 8 2004-12-01 E 29.003001
## 2999: 9 2004-12-01 E 12.076765
## 3000: 10 2004-12-01 E 28.410980

如果这是正确的,您可以使用以下方法生成跨模型的均值:

df[,.(Mean=mean(Temperature)),.(Location,Date)];
## Location Date Mean
## 1: 1 2000-01-01 9.498497
## 2: 2 2000-01-01 11.744622
## 3: 3 2000-01-01 15.691228
## 4: 4 2000-01-01 11.457154
## 5: 5 2000-01-01 8.897931
## ---
## 596: 6 2004-12-01 17.587000
## 597: 7 2004-12-01 19.555963
## 598: 8 2004-12-01 15.710465
## 599: 9 2004-12-01 15.322790
## 600: 10 2004-12-01 20.240392

请注意,:= 运算符实际上并不聚合。它仅添加、修改或删除原始 data.table 中的列。可以使用聚合计算的重复项添加新列(或覆盖旧列)(例如,参见 http://www.r-bloggers.com/two-of-my-favorite-data-table-features/ ),但这不是您想要的。

一般来说,当您聚合数据表时,您必然会生成一个表,该表的每个聚合键减少为一行。 := 运算符不会执行此操作。

相反,我们需要在 data.table 上运行正常的索引操作,按所需的聚合键(将自动包含在输出 data.table 中)分组,并添加 j 参数将为每个组评估一次。结果将是原始表的简化版本,所有 j 参数评估的结果与其各自的聚合键合并。由于我们的 j 参数为每​​个组生成一个标量值,因此我们的结果将是每个 Location/Date 聚合键一行。

关于r - 按组汇总data.table,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36526141/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com