gpt4 book ai didi

r - 你应该如何使用data.table 'by'参数来创建多列数据?

转载 作者:行者123 更新时间:2023-12-02 06:01:34 25 4
gpt4 key购买 nike

我正在使用 data.table 的 by 参数创建相当多的列。下面是我将用来说明问题的一些示例数据。

> dt <- data.table(x=runif(10), group=c(1,1,1,1,1,2,2,2,2,2))
> dt
x group
1: 0.0488727 1
2: 0.3087102 1
3: 0.8107115 1
4: 0.7368206 1
5: 0.2941478 1
6: 0.5221693 2
7: 0.2505612 2
8: 0.2730681 2
9: 0.2098595 2
10: 0.4512163 2

我想用“by”参数对每组数据做一些汇总统计。一种选择是将它们全部分配给 dt 中的列:

> dt[, max:=max(x), by=group]
> dt[, min:=min(x), by=group]
> dt[, mean:=mean(x), by=group]
> dt[, median:=median(x), by=group]
> dt
x group max min mean median
1: 0.0488727 1 0.8107115 0.0488727 0.4398526 0.3087102
2: 0.3087102 1 0.8107115 0.0488727 0.4398526 0.3087102
3: 0.8107115 1 0.8107115 0.0488727 0.4398526 0.3087102
4: 0.7368206 1 0.8107115 0.0488727 0.4398526 0.3087102
5: 0.2941478 1 0.8107115 0.0488727 0.4398526 0.3087102
6: 0.5221693 2 0.5221693 0.2098595 0.3413749 0.2730681
7: 0.2505612 2 0.5221693 0.2098595 0.3413749 0.2730681
8: 0.2730681 2 0.5221693 0.2098595 0.3413749 0.2730681
9: 0.2098595 2 0.5221693 0.2098595 0.3413749 0.2730681
10: 0.4512163 2 0.5221693 0.2098595 0.3413749 0.2730681

这很糟糕,因为您创建的列包含大量不必要的重复元素。我不知道有什么合理的方法可以折叠该 data.table。

另一种方法是将每个结果放入一个单独的 data.table 中,然后将它们合并在一起:

> a<-dt[, max(x), by=group]
> b<-dt[, min(x), by=group]
> c<-dt[, mean(x), by=group]
> d<-dt[, median(x), by=group]
> setnames(a, "V1", "max")
> setnames(b, "V1", "min")
> setnames(c, "V1", "mean")
> setnames(d, "V1", "median")
> setkeyv(a, "group")
> setkeyv(b, "group")
> setkeyv(c, "group")
> setkeyv(d, "group")
> dt.summary.stats -> a[b][c][d]
> dt.summary.stats
group max min mean median
1: 1 0.8107115 0.0488727 0.4398526 0.3087102
2: 2 0.5221693 0.2098595 0.3413749 0.2730681

dt.summary.stats 包含我想要的结果,但这感觉像是一种非常愚蠢的实现方式。执行此操作的正确方法是什么?

最佳答案

给你:

dt[, list(max = max(x), min = min(x), mean = mean(x), median = median(x)),
by = group]
# group max min mean median
#1: 1 0.8185661 0.02120035 0.3277341 0.1721039
#2: 2 0.9243562 0.28941571 0.6137555 0.5826848

或者只使用summary:

dt[, as.list(summary(x)), by = group]
# group Min. 1st Qu. Median Mean 3rd Qu. Max.
#1: 1 0.0212 0.1517 0.1721 0.3277 0.4751 0.8186
#2: 2 0.2894 0.4243 0.5827 0.6138 0.8480 0.9244

关于r - 你应该如何使用data.table 'by'参数来创建多列数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21920585/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com