gpt4 book ai didi

r - 如果我的分组变量是一个因素,我如何生成按组汇总的统计数据?

转载 作者:行者123 更新时间:2023-12-04 10:56:00 26 4
gpt4 key购买 nike

假设我想获得关于数据集 mtcars 的一些汇总统计信息(基本 R 版本 2.12.1 的一部分)。
下面,我根据汽车拥有的发动机气缸数对汽车进行分组,并采用 mtcars 中剩余变量的每组平均值。 .

> str(mtcars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
mpg cyl disp hp drat wt qsec vs am gear
1 26.66364 4 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286 6 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000 8 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
carb
1 1.545455
2 3.428571
3 3.500000

但是,如果我的分组变量恰好是一个因素,事情就会变得棘手。 ddply()对因子的每个级别发出警告,
因为不能接受 mean()的一个因素。
> mtcars$cyl <- as.factor(mtcars$cyl)
> str(mtcars)
'data.frame': 32 obs. of 11 variables:
$ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
$ cyl : Factor w/ 3 levels "4","6","8": 2 2 1 2 3 2 3 1 1 2 ...
$ disp: num 160 160 108 258 360 ...
$ hp : num 110 110 93 110 175 105 245 62 95 123 ...
$ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
$ wt : num 2.62 2.88 2.32 3.21 3.44 ...
$ qsec: num 16.5 17 18.6 19.4 17 ...
$ vs : num 0 0 1 1 0 1 0 1 1 1 ...
$ am : num 1 1 1 0 0 0 0 0 0 0 ...
$ gear: num 4 4 4 3 3 3 3 4 4 4 ...
$ carb: num 4 4 1 1 2 1 4 2 2 4 ...
> ddply(mtcars, .(cyl), mean)
mpg cyl disp hp drat wt qsec vs am gear
1 26.66364 NA 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909 0.7272727 4.090909
2 19.74286 NA 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286 0.4285714 3.857143
3 15.10000 NA 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000 0.1428571 3.285714
carb
1 1.545455
2 3.428571
3 3.500000
Warning messages:
1: In mean.default(X[[2L]], ...) :
argument is not numeric or logical: returning NA
2: In mean.default(X[[2L]], ...) :
argument is not numeric or logical: returning NA
3: In mean.default(X[[2L]], ...) :
argument is not numeric or logical: returning NA
>

所以,我想知道我是否只是以错误的方式生成汇总统计信息。

通常如何生成按因子或按组汇总统计的数据结构(如均值、标准差等)?我应该使用除 ddply() 以外的其他东西吗? ?如果我可以使用 ddply() ,我该怎么做才能避免在尝试取分组因子的平均值时导致的错误?

最佳答案

使用 numcolwise(mean) : numcolwise function 将其参数(函数)转换为仅对数值列进行运算的函数(并忽略分类/因子列)。

  > ddply(mtcars, .(cyl), numcolwise(mean))

cyl mpg disp hp drat wt qsec vs
1 4 26.66364 105.1364 82.63636 4.070909 2.285727 19.13727 0.9090909
2 6 19.74286 183.3143 122.28571 3.585714 3.117143 17.97714 0.5714286
3 8 15.10000 353.1000 209.21429 3.229286 3.999214 16.77214 0.0000000
am gear carb
1 0.7272727 4.090909 1.545455
2 0.4285714 3.857143 3.428571
3 0.1428571 3.285714 3.500000

关于r - 如果我的分组变量是一个因素,我如何生成按组汇总的统计数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4834957/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com