r - 如何将 ddply 与不同的 .variables 一起使用？-6ren

r - 如何将 ddply 与不同的 .variables 一起使用？

转载作者：行者123 更新时间：2023-12-02 17:28:52

25

4

我使用 ddply 按各种类别总结一些 data.frame，如下所示:

# with both group and size being factors / categorical
split.df <- ddply(mydata,.(group,size),summarize,
                  sumGroupSize = sum(someValue))

这工作很顺利，但我经常喜欢计算比率，这意味着我需要除以组的总数。如何在同一个 ddply 调用中计算这样的总数？

假设我想要获得 A 组中尺寸类别 1 中的观测值的份额。显然，我必须首先计算尺寸类别 1 中所有观测值的总和。当然，我可以通过两个 ddply 调用来完成此操作，但使用所有一个调用会更舒服。有办法这样做吗？

编辑:我本来不想问得太具体，但我意识到我打扰了这里的人。这是我的具体问题。事实上，我确实有一个可行的例子，但我不认为它真的很漂亮。另外它还有一个我需要克服的缺点:它不能与 apply 一起正常工作。

library(plyr)

# make the dataset more "realistic"
mydata <- warpbreaks
names(mydata) <- c("someValue","group","size")
mydata$category <- c(1,2,3)
mydata$categoryA <- c("A","A","X","X","Z","Z")
# add some NA
mydata$category[c(8,10,19)] <- NA
mydata$categoryA[c(14,1,20)] <- NA


# someValue is summarized !
# note we have a another, varying category hence we need the a parameter
calcShares <- function(a, data) {
# !is.na needs to be specific!
tempres1 <- eval(substitute(ddply(data[!is.na(a),],.(group,size,a),summarize,
                sumTest = sum(someValue,na.rm=T))),

                envir=data, enclos=parent.frame())
tempres2 <- eval(substitute(ddply(data[!is.na(a),],.(group,size),summarize,
                sumTestTotal = sum(someValue,na.rm=T))),
                envir=data, enclos=parent.frame())

res <- merge(tempres1,tempres2,by=c("group","size"))
res$share <- res$sumTest/res$sumTestTotal
 return(res)

}

test <- calcShares(category,mydata)
test2 <- calcShares(categoryA,mydata)   
head(test)
head(test2)

正如你所看到的，我打算在不同的分类变量上运行它。在示例中，我只有两个(类别，类别A)，但实际上我有更多，因此将 apply 与我的函数一起使用会非常好，但不知何故它无法正常工作。

applytest <- head(apply(mydata[grep("^cat",
             names(mydata),value=T)],2,calcShares,data=mydata))

.. 返回一条警告消息和一个奇怪的类别 var 名称 (newX[, i] )。

那么我该如何a)更优雅地执行此操作并b)解决应用问题？

最佳答案

这看起来很简单，所以我可能遗漏了你问题的某些方面。

首先，定义一个函数来计算 group 每个级别中所需的值。然后，不要使用 .(group, size) 来拆分 data.frame，而是使用 .(group)，并将新定义的函数应用于每个拆分部分.

library(plyr)

# Create a dataset with the names in your example
mydata <- warpbreaks
names(mydata) <- c("someValue", "group", "size")

# A function that calculates the proportional contribution of each size class 
# to the sum of someValue within a level of group
getProps <- function(df) {
    with(df, ave(someValue, size, FUN=sum)/sum(someValue))
}

# The call to ddply()
res <- ddply(mydata, .(group), 
             .fun = function(X) transform(X, PROPS=getProps(X)))

head(res, 12)
#    someValue group size     PROPS
# 1         26     A    L 0.4785203
# 2         30     A    L 0.4785203
# 3         54     A    L 0.4785203
# 4         25     A    L 0.4785203
# 5         70     A    L 0.4785203
# 6         52     A    L 0.4785203
# 7         51     A    L 0.4785203
# 8         26     A    L 0.4785203
# 9         67     A    L 0.4785203
# 10        18     A    M 0.2577566
# 11        21     A    M 0.2577566
# 12        29     A    M 0.2577566

关于r - 如何将 ddply 与不同的 .variables 一起使用？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8897927/

25

4

0

文章推荐： ant - 创建包含文件夹子文件夹的目录

文章推荐： ruby-on-rails - 获取rails路线的参数

文章推荐： xmpp - 如何重置 ejabberd 管理员密码？

r - ddply + 汇总函数列名输入
我正在尝试使用 ddply和 summarise一起来自plyr包，但我很难解析不断变化的列名...在我的例子中，我想要一些可以在 X1 中以编程方式解析的东西，而不是在 X1 中硬编码到 ddply
r - 设置列名 ddply
如何设置汇总数据的列名 library(plyr) ddply(data,.(col1,col2),nrow) 像 ddply(data,.(col1,col2),function(x) data.f
r - ddply 总结比例计数
我在使用 plyr 包中的 ddply 函数时遇到了一些问题。我试图用每个组内的计数和比例来总结以下数据。这是我的数据: structure(list(X5employf = structur
r - ddply 总结字符串操作
我正在使用 ddply马上。处理数字非常容易。如取子组的均值或标准差。但是我很难处理字符串。我想组合每个子组中同一列中的字符串，但我无法做到。我试过 cbind paste等任何人都可以提供一些帮助
r - 在函数内使用 ddply
我正在尝试在其中使用 ddply 来创建一个函数。但是我无法上类。这是一个复制我得到的虚拟示例。这有什么关系this bug ? library(ggplot2) data(diamonds) foo
r - 在包中正确引用 ddply
我创建了一个大量使用 dplyr 的包，与此同时，这个包需要包含一个不同的函数，它依赖于 plyr 中的 ddply > 包裹。本来我是直接用@import plyr的，结果命名冲突，把我的其他功能都
r - 用于创建列表联合的 ddply
我有一个包含客户 ID 和列表的数据框。我想合并那些属于同一客户的列表。 library(plyr) subsets transactions customerid subset 1
ddply(plyr)中的R汇总函数以简单的方式
我将如何使用 plyr 复制此内容? with(mtcars, tapply(mpg, cyl, summary)) 以同样的优雅，即不详细说明个人统计数据？最佳答案 library(plyr) d
r - ddply 和聚合之间的区别
有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别: 一个数据框: mydat d a b c 1 1 5 1 2 2 6 1 3 3 7 2 4 4 8 2 通过使用函数 print
R - ddply 并增加一个计数器
我正在使用 ddply 拆分数据帧并将 block 发送到函数。在 ddply 行之前，我设置了 i=1。然后在函数内部递增 i 以便每个数据 block 都获得一个新数字。但是，当我运行它时，每次调
r - 按组对多个分位数进行 ddply
我怎样才能做这个计算: library(ddply) quantile(baseball$ab) 0% 25% 50% 75% 100% 0 25 131 435 705 按组
r - 从函数发送列名到 ddply
我希望能够将列名发送给我正在调用的电话 ddply .一个例子ddply称呼: ddply(myData, .(MyGrouping), summarise, count=sum(myColumnNa
r - 学习理解plyr、ddply
我一直试图通过尝试不同的变量和函数并查看结果来了解 plyr 是什么以及如何工作。所以我更多的是在寻找 plyr 如何工作的解释，而不是具体的修复它的答案。我已经阅读了文档，但我的新手大脑仍然没有得到
r - ddply() 似乎没有在我的数据框中划分子集
我试图在数据集的子集中获取汇总统计信息，并自然地转向 plyr 包，因为我正在使用数据帧 ddply()。我不明白为什么这不起作用...... t <- as.data.frame(cbind(1,
具有多个变量的 R ddply
这是我的真实数据集的一个简单数据框: df <- data.frame(ID=rep(101:102,each=9),phase=rep(1:3,6),variable=rep(LETTERS[1:3
r - ddply 用于没有组的整个数据？
是否可以使用ddply来汇总数据而不按组分层？我尝试过类似的事情 ddply(df, summarize, a = sum(a, na.rm=T), b = sum(b, na.rm=T)) 最佳答案
r - ddply 返回太多结果
由于某种原因，自升级到 R-2.13.0 和升级到 plyr_1.5.1.tar.gz 以来，我得到的结果比我预期的要多...我在旧版本的 plyr(版本不幸的是不确定，因为我刚刚覆盖了它......
r - 将函数中的值传递给 ddply
我已经ddply 沿着这些线路构建了一个data.frame: out 10)) 这很好用，所以我试着把它放到一个函数中 func val.in)) } func(10) 这不起作用 - 看起来
r - ddply() 似乎没有在我的数据框中进行子集化
我试图在我的数据集的子集中获取汇总统计信息，自然而然地转向了 plyr 包，因为我正在使用数据框 ddply()。我不明白为什么这不起作用.... t <- as.data.frame(cbind(1
r - ddply 多输出函数的使用
我有一个返回多个值的函数。我需要在 ddply 中使用它，但我想避免多次调用该函数。这是一个模型示例: library(plyr) ff = function(i) { return(c(min(

首页

博学

6Ren·AI

商城

r - 如何将 ddply 与不同的 .variables 一起使用？