R ddply 循环；多重因素-6ren

R ddply 循环；多重因素

转载作者：行者123 更新时间：2023-12-04 20:40:28

25

4

我想使用 ddply 通过多种因素汇总来自多个变量的数据。

我有以下测试数据:

site    block   plot    rep name    weight  height  dtf
Alberta 1   2   1   A   43  139 54
Alberta 2   5   2   A   46  139 46
Alberta 4   10  3   A   49  136 54
Nunavut 1   1   1   A   49  136 59
Nunavut 2   4   2   A   51  135 50
Nunavut 3   8   3   A   52  133 56
Alberta 5   13  1   B   55  132 50
Alberta 4   12  2   B   55  125 46
Alberta 5   15  3   B   56  120 46
Nunavut 5   14  1   B   57  119 54
Nunavut 5   13  2   B   58  119 55
Nunavut 4   11  3   B   59  118 51
...

等等。

我想取变量“重量”、“高度”、“dtf”，并根据“站点”和“名称”因素对它们进行汇总。

我从列名的向量开始:

data.factors <- NULL
data.variables <- NULL
for(n in 1:length(data)){if(is.factor(data[[n]])){ data.factors <- c(data.factors,colnames(data[n]))} else next}
for(n in 1:length(data)){if(is.numeric(data[[n]]) || is.integer(data[[n]])){ data.variables <- c(data.variables,colnames(data[n]))} else next}

这适用于执行多个单因素方差分析:

for(variables in data.variables){
for(factors in data.factors){
output1 <- aov(lm(data[[variables]]~data[[factors]]))
cat(variables)
cat(" by ")
cat(factors)
cat("\n")
print(summary(output1))
}}

但我无法让它与 ddply 一起使用。

for (x in data.variables){
variable.summary <- ddply(data, .(site,name), summarise,
N    = sum(!is.na(x[1])),
min = min(x[1], na.rm=TRUE),
max = max(x[1], na.rm=TRUE),
mean = mean(x[1], na.rm=TRUE),
sd   = sd(x[1], na.rm=TRUE),
se   = sd / sqrt(N)
)
print(variable.summary)
}

我得到的只是以下内容:

site name N    min    max mean sd se
1  Alberta    A 1 weight weight   NA NA NA
2  Alberta    B 1 weight weight   NA NA NA
3  Alberta    C 1 weight weight   NA NA NA
4  Alberta    D 1 weight weight   NA NA NA
5  Alberta    E 1 weight weight   NA NA NA
6  Nunavut    A 1 weight weight   NA NA NA
7  Nunavut    B 1 weight weight   NA NA NA
8  Nunavut    C 1 weight weight   NA NA NA
9  Nunavut    D 1 weight weight   NA NA NA
10 Nunavut    E 1 weight weight   NA NA NA
....

如果我使用单个变量(直接输入而不是通过“x”引用的变量)测试 ddply，它会正常工作。

让函数识别引用的列 ID 有什么技巧吗？我已经习惯了 PERL，它的 $Scalars 可以在任何地方引用，并且希望在 R 中可以使用类似的系统。

最佳答案

ddply 的后继者 dplyr 可以使用 group_by() 非常轻松地做到这一点。和 summarise_each() ，无需循环任何内容:

df <- data.frame(site = c("Alberta", "Alberta", "Alberta", "Nunavut", "Nunavut", "Nunavut", "Alberta", "Alberta", "Alberta", "Nunavut", "Nunavut", "Nunavut"),
                 block = c(1, 2, 4, 1, 2, 3, 5, 4, 5, 5, 5, 4),
                 plot = c(2, 5, 10, 1, 4, 8, 13, 12, 15, 14, 13, 11),
                 rep = c(1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3),
                 name = c("A", "A", "A", "A", "A", "A", "B", "B", "B", "B", "B", "B"),
                 weight = c(43, 46, 49, 49, 51, 52, 55, 55, 56, 57, 58, 59),
                 height = c(139, 139, 136, 136, 135, 133, 132, 125, 120, 119, 119, 118),
                 dtf = c(54, 46, 54, 59, 50, 56, 50, 46, 46, 54, 55, 51))

library(dplyr)

df.summary <- df %>%
  group_by(site, name) %>%
  summarise_each(funs(sum, min, max, mean, sd), weight, height, dtf)

结果是这样的数据框:

> df.summary
Source: local data frame [4 x 17]
Groups: site

     site name weight_length height_length dtf_length weight_min height_min dtf_min
1 Alberta    A             3             3          3         43        136      46
2 Alberta    B             3             3          3         55        120      46
3 Nunavut    A             3             3          3         49        133      50
4 Nunavut    B             3             3          3         57        118      51
Variables not shown: weight_max (dbl), height_max (dbl), dtf_max (dbl), weight_mean (dbl),
  height_mean (dbl), dtf_mean (dbl), weight_sd (dbl), height_sd (dbl), dtf_sd (dbl)

您可以将任何您想要的函数传递给 funs()内 summarise_each ，所以如果你想要一列标准错误，只需先创建函数:

se <- function(x) {
  N <- sum(!is.na(x[1]))
  return(sd / sqrt(N))
}

并通过: summarise_each(funs(sum, min, max, mean, sd, se)...)

关于R ddply 循环；多重因素，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27414068/

25

4

0

文章推荐： api - 构建有效的 REST API 身份验证

文章推荐： sql - 如何向 Oracle 数据库中 CLOB 中包含的 xml 添加属性？

文章推荐： java - 如何设计具有现代外观的桌面应用程序？

r - ddply + 汇总函数列名输入
我正在尝试使用 ddply和 summarise一起来自plyr包，但我很难解析不断变化的列名...在我的例子中，我想要一些可以在 X1 中以编程方式解析的东西，而不是在 X1 中硬编码到 ddply
r - 设置列名 ddply
如何设置汇总数据的列名 library(plyr) ddply(data,.(col1,col2),nrow) 像 ddply(data,.(col1,col2),function(x) data.f
r - ddply 总结比例计数
我在使用 plyr 包中的 ddply 函数时遇到了一些问题。我试图用每个组内的计数和比例来总结以下数据。这是我的数据: structure(list(X5employf = structur
r - ddply 总结字符串操作
我正在使用 ddply马上。处理数字非常容易。如取子组的均值或标准差。但是我很难处理字符串。我想组合每个子组中同一列中的字符串，但我无法做到。我试过 cbind paste等任何人都可以提供一些帮助
r - 在函数内使用 ddply
我正在尝试在其中使用 ddply 来创建一个函数。但是我无法上类。这是一个复制我得到的虚拟示例。这有什么关系this bug ? library(ggplot2) data(diamonds) foo
r - 在包中正确引用 ddply
我创建了一个大量使用 dplyr 的包，与此同时，这个包需要包含一个不同的函数，它依赖于 plyr 中的 ddply > 包裹。本来我是直接用@import plyr的，结果命名冲突，把我的其他功能都
r - 用于创建列表联合的 ddply
我有一个包含客户 ID 和列表的数据框。我想合并那些属于同一客户的列表。 library(plyr) subsets transactions customerid subset 1
ddply(plyr)中的R汇总函数以简单的方式
我将如何使用 plyr 复制此内容? with(mtcars, tapply(mpg, cyl, summary)) 以同样的优雅，即不详细说明个人统计数据？最佳答案 library(plyr) d
r - ddply 和聚合之间的区别
有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别: 一个数据框: mydat d a b c 1 1 5 1 2 2 6 1 3 3 7 2 4 4 8 2 通过使用函数 print
R - ddply 并增加一个计数器
我正在使用 ddply 拆分数据帧并将 block 发送到函数。在 ddply 行之前，我设置了 i=1。然后在函数内部递增 i 以便每个数据 block 都获得一个新数字。但是，当我运行它时，每次调
r - 按组对多个分位数进行 ddply
我怎样才能做这个计算: library(ddply) quantile(baseball$ab) 0% 25% 50% 75% 100% 0 25 131 435 705 按组
r - 从函数发送列名到 ddply
我希望能够将列名发送给我正在调用的电话 ddply .一个例子ddply称呼: ddply(myData, .(MyGrouping), summarise, count=sum(myColumnNa
r - 学习理解plyr、ddply
我一直试图通过尝试不同的变量和函数并查看结果来了解 plyr 是什么以及如何工作。所以我更多的是在寻找 plyr 如何工作的解释，而不是具体的修复它的答案。我已经阅读了文档，但我的新手大脑仍然没有得到
r - ddply() 似乎没有在我的数据框中划分子集
我试图在数据集的子集中获取汇总统计信息，并自然地转向 plyr 包，因为我正在使用数据帧 ddply()。我不明白为什么这不起作用...... t <- as.data.frame(cbind(1,
具有多个变量的 R ddply
这是我的真实数据集的一个简单数据框: df <- data.frame(ID=rep(101:102,each=9),phase=rep(1:3,6),variable=rep(LETTERS[1:3
r - ddply 用于没有组的整个数据？
是否可以使用ddply来汇总数据而不按组分层？我尝试过类似的事情 ddply(df, summarize, a = sum(a, na.rm=T), b = sum(b, na.rm=T)) 最佳答案
r - ddply 返回太多结果
由于某种原因，自升级到 R-2.13.0 和升级到 plyr_1.5.1.tar.gz 以来，我得到的结果比我预期的要多...我在旧版本的 plyr(版本不幸的是不确定，因为我刚刚覆盖了它......
r - 将函数中的值传递给 ddply
我已经ddply 沿着这些线路构建了一个data.frame: out 10)) 这很好用，所以我试着把它放到一个函数中 func val.in)) } func(10) 这不起作用 - 看起来
r - ddply() 似乎没有在我的数据框中进行子集化
我试图在我的数据集的子集中获取汇总统计信息，自然而然地转向了 plyr 包，因为我正在使用数据框 ddply()。我不明白为什么这不起作用.... t <- as.data.frame(cbind(1
r - ddply 多输出函数的使用
我有一个返回多个值的函数。我需要在 ddply 中使用它，但我想避免多次调用该函数。这是一个模型示例: library(plyr) ff = function(i) { return(c(min(

首页

博学

6Ren·AI

商城

R ddply 循环；多重因素