- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想使用 ddply 通过多种因素汇总来自多个变量的数据。
我有以下测试数据:
site block plot rep name weight height dtf
Alberta 1 2 1 A 43 139 54
Alberta 2 5 2 A 46 139 46
Alberta 4 10 3 A 49 136 54
Nunavut 1 1 1 A 49 136 59
Nunavut 2 4 2 A 51 135 50
Nunavut 3 8 3 A 52 133 56
Alberta 5 13 1 B 55 132 50
Alberta 4 12 2 B 55 125 46
Alberta 5 15 3 B 56 120 46
Nunavut 5 14 1 B 57 119 54
Nunavut 5 13 2 B 58 119 55
Nunavut 4 11 3 B 59 118 51
...
data.factors <- NULL
data.variables <- NULL
for(n in 1:length(data)){if(is.factor(data[[n]])){ data.factors <- c(data.factors,colnames(data[n]))} else next}
for(n in 1:length(data)){if(is.numeric(data[[n]]) || is.integer(data[[n]])){ data.variables <- c(data.variables,colnames(data[n]))} else next}
for(variables in data.variables){
for(factors in data.factors){
output1 <- aov(lm(data[[variables]]~data[[factors]]))
cat(variables)
cat(" by ")
cat(factors)
cat("\n")
print(summary(output1))
}}
for (x in data.variables){
variable.summary <- ddply(data, .(site,name), summarise,
N = sum(!is.na(x[1])),
min = min(x[1], na.rm=TRUE),
max = max(x[1], na.rm=TRUE),
mean = mean(x[1], na.rm=TRUE),
sd = sd(x[1], na.rm=TRUE),
se = sd / sqrt(N)
)
print(variable.summary)
}
site name N min max mean sd se
1 Alberta A 1 weight weight NA NA NA
2 Alberta B 1 weight weight NA NA NA
3 Alberta C 1 weight weight NA NA NA
4 Alberta D 1 weight weight NA NA NA
5 Alberta E 1 weight weight NA NA NA
6 Nunavut A 1 weight weight NA NA NA
7 Nunavut B 1 weight weight NA NA NA
8 Nunavut C 1 weight weight NA NA NA
9 Nunavut D 1 weight weight NA NA NA
10 Nunavut E 1 weight weight NA NA NA
....
最佳答案
ddply 的后继者 dplyr 可以使用 group_by()
非常轻松地做到这一点。和 summarise_each()
,无需循环任何内容:
df <- data.frame(site = c("Alberta", "Alberta", "Alberta", "Nunavut", "Nunavut", "Nunavut", "Alberta", "Alberta", "Alberta", "Nunavut", "Nunavut", "Nunavut"),
block = c(1, 2, 4, 1, 2, 3, 5, 4, 5, 5, 5, 4),
plot = c(2, 5, 10, 1, 4, 8, 13, 12, 15, 14, 13, 11),
rep = c(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3),
name = c("A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "B"),
weight = c(43, 46, 49, 49, 51, 52, 55, 55, 56, 57, 58, 59),
height = c(139, 139, 136, 136, 135, 133, 132, 125, 120, 119, 119, 118),
dtf = c(54, 46, 54, 59, 50, 56, 50, 46, 46, 54, 55, 51))
library(dplyr)
df.summary <- df %>%
group_by(site, name) %>%
summarise_each(funs(sum, min, max, mean, sd), weight, height, dtf)
> df.summary
Source: local data frame [4 x 17]
Groups: site
site name weight_length height_length dtf_length weight_min height_min dtf_min
1 Alberta A 3 3 3 43 136 46
2 Alberta B 3 3 3 55 120 46
3 Nunavut A 3 3 3 49 133 50
4 Nunavut B 3 3 3 57 118 51
Variables not shown: weight_max (dbl), height_max (dbl), dtf_max (dbl), weight_mean (dbl),
height_mean (dbl), dtf_mean (dbl), weight_sd (dbl), height_sd (dbl), dtf_sd (dbl)
funs()
内
summarise_each
,所以如果你想要一列标准错误,只需先创建函数:
se <- function(x) {
N <- sum(!is.na(x[1]))
return(sd / sqrt(N))
}
summarise_each(funs(sum, min, max, mean, sd, se)...)
关于R ddply 循环;多重因素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27414068/
我正在尝试使用 ddply和 summarise一起来自plyr包,但我很难解析不断变化的列名...在我的例子中,我想要一些可以在 X1 中以编程方式解析的东西,而不是在 X1 中硬编码到 ddply
如何设置汇总数据的列名 library(plyr) ddply(data,.(col1,col2),nrow) 像 ddply(data,.(col1,col2),function(x) data.f
我在使用 plyr 包中的 ddply 函数时遇到了一些问题。我试图用每个组内的计数和比例来总结以下数据。这是我的数据: structure(list(X5employf = structur
我正在使用 ddply马上。处理数字非常容易。如取子组的均值或标准差。 但是我很难处理字符串。我想组合每个子组中同一列中的字符串,但我无法做到。我试过 cbind paste等任何人都可以提供一些帮助
我正在尝试在其中使用 ddply 来创建一个函数。但是我无法上类。这是一个复制我得到的虚拟示例。这有什么关系this bug ? library(ggplot2) data(diamonds) foo
我创建了一个大量使用 dplyr 的包,与此同时,这个包需要包含一个不同的函数,它依赖于 plyr 中的 ddply > 包裹。本来我是直接用@import plyr的,结果命名冲突,把我的其他功能都
我有一个包含客户 ID 和列表的数据框。 我想合并那些属于同一客户的列表。 library(plyr) subsets transactions customerid subset 1
我将如何使用 plyr 复制此内容? with(mtcars, tapply(mpg, cyl, summary)) 以同样的优雅,即不详细说明个人统计数据? 最佳答案 library(plyr) d
有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别: 一个数据框: mydat d a b c 1 1 5 1 2 2 6 1 3 3 7 2 4 4 8 2 通过使用函数 print
我正在使用 ddply 拆分数据帧并将 block 发送到函数。在 ddply 行之前,我设置了 i=1。然后在函数内部递增 i 以便每个数据 block 都获得一个新数字。但是,当我运行它时,每次调
我怎样才能做这个计算: library(ddply) quantile(baseball$ab) 0% 25% 50% 75% 100% 0 25 131 435 705 按组
我希望能够将列名发送给我正在调用的电话 ddply .一个例子ddply称呼: ddply(myData, .(MyGrouping), summarise, count=sum(myColumnNa
我一直试图通过尝试不同的变量和函数并查看结果来了解 plyr 是什么以及如何工作。所以我更多的是在寻找 plyr 如何工作的解释,而不是具体的修复它的答案。我已经阅读了文档,但我的新手大脑仍然没有得到
我试图在数据集的子集中获取汇总统计信息,并自然地转向 plyr 包,因为我正在使用数据帧 ddply()。我不明白为什么这不起作用...... t <- as.data.frame(cbind(1,
这是我的真实数据集的一个简单数据框: df <- data.frame(ID=rep(101:102,each=9),phase=rep(1:3,6),variable=rep(LETTERS[1:3
是否可以使用ddply来汇总数据而不按组分层?我尝试过类似的事情 ddply(df, summarize, a = sum(a, na.rm=T), b = sum(b, na.rm=T)) 最佳答案
由于某种原因,自升级到 R-2.13.0 和升级到 plyr_1.5.1.tar.gz 以来,我得到的结果比我预期的要多...我在旧版本的 plyr(版本不幸的是不确定,因为我刚刚覆盖了它......
我已经ddply 沿着这些线路构建了一个data.frame: out 10)) 这很好用,所以我试着把它放到一个函数中 func val.in)) } func(10) 这不起作用 - 看起来
我试图在我的数据集的子集中获取汇总统计信息,自然而然地转向了 plyr 包,因为我正在使用数据框 ddply()。我不明白为什么这不起作用.... t <- as.data.frame(cbind(1
我有一个返回多个值的函数。我需要在 ddply 中使用它,但我想避免多次调用该函数。这是一个模型示例: library(plyr) ff = function(i) { return(c(min(
我是一名优秀的程序员,十分优秀!