r - R 中 plyr::ldply(tapply) 的 dplyr 等价物是什么？-6ren

r - R 中 plyr::ldply(tapply) 的 dplyr 等价物是什么？

转载作者：行者123 更新时间：2023-12-02 07:31:58

25

4

最终，我试图实现类似于以下内容的目标，但利用 dplyr 而不是 plyr:

library(dplyr)  
probs = seq(0, 1, 0.1)

plyr::ldply(tapply(mtcars$mpg, 
                   mtcars$cyl, 
                   function(x) { quantile(x, probs = probs) }))

#   .id   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
# 1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
# 2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
# 3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2

我能想到的最好的 dplyr 等效项是这样的:

library(tidyr)
probs = seq(0, 1, 0.1)

mtcars %>%
  group_by(cyl) %>%
  do(data.frame(prob = probs, stat = quantile(.$mpg, probs = probs))) %>%
  spread(prob, stat)

#   cyl    0   0.1   0.2   0.3   0.4  0.5   0.6   0.7   0.8   0.9    1
# 1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
# 2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
# 3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2

请注意，我还需要使用 tidyr::spread。此外，请注意，由于将第一列中的 .id 替换为 cyl，因此我丢失了列标题的 % 格式。

问题:

是否有更好的基于 dplyr 的方法来实现此目的tapply %>% ldply 链？
有没有一种方法可以两全其美无需跳过太多的圈子就可以进入世界？即获取%第一列的格式和正确的 cyl 列名称？

最佳答案

使用dplyr

library(dplyr)
mtcars %>% 
   group_by(cyl) %>% 
   do(data.frame(as.list(quantile(.$mpg,probs=probs)), check.names=FALSE))
#  cyl   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
#1   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
#2   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
#3   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2

或者使用data.table的选项

library(data.table)
as.data.table(mtcars)[, as.list(quantile(mpg, probs=probs)) , cyl]
#   cyl   0%   10%   20%   30%   40%  50%   60%   70%   80%   90% 100%
#1:   6 17.8 17.98 18.32 18.98 19.40 19.7 20.48 21.00 21.00 21.16 21.4
#2:   4 21.4 21.50 22.80 22.80 24.40 26.0 27.30 30.40 30.40 32.40 33.9
#3:   8 10.4 11.27 13.90 14.66 15.04 15.2 15.44 15.86 16.76 18.28 19.2

关于r - R 中 plyr::ldply(tapply) 的 dplyr 等价物是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30597522/

25

4

0

文章推荐： java - 为什么返回数组的副本？

文章推荐： security - 如何保护对 Windows Azure 实例的远程桌面访问

r - plyr 嵌套组？
是否有一种 Eloquent 方法来使用 ddply() 不仅获得定义的最细粒度组的输出，还获得那些子组的输出？换句话说，当其中一个分类器是“任何”或“任一”或“无关紧要”时。在两个分组变量的简单情
用 Plyr 滚动平均
我正在尝试使用 plyr 计算滚动平均值。数据是行业国家年的数据，对每个行业国家都有重复观察。数据不平衡，但大多数工业国家有大约 15 个观测值。例如数据如下所示: country IS
r - plyr 包在多列上编写相同的函数
我想使用 ddply 函数将相同的函数写入多个列，但我尝试将它们写在一行中，想看看有没有更好的方法来做到这一点？这是数据的简单版本: data<-data.frame(TYPE=as.integer
ddply(plyr)中的R汇总函数以简单的方式
我将如何使用 plyr 复制此内容? with(mtcars, tapply(mpg, cyl, summary)) 以同样的优雅，即不详细说明个人统计数据？最佳答案 library(plyr) d
R, plyr, 具有复函数
我有以下数据集(CEU): group x y 1 -23 100 1 -0.90 69.62 1 -0.90 72.03 2 -23
r - plyr 转换后不返回新变量
我正在尝试学习如何在 R/plyr 中编写函数。我知道有更简单的方法可以完成我在下面展示的内容，但这不是重点。在下面的示例中，PLYR 不会向我的新数据框返回新变量 library(plyr) hi
R plyr 应用于行
我有一个这样的数据框: mat.in=data.frame(site=c('A','A','A','B','B','B'), var=c('product.A','product.B'
r - 用于生成预测的 Plyr
作为学习 plyr 的练习，我尝试对 Rob Hyndman 最近发布的一篇文章做一个 plyr 版本: library(forecast); library(plyr) # Hyndman, R.
r - 合并数据帧以使用 plyr 绘制多个时间序列
我想在一个图上绘制多个时间序列。目前我可以单独绘制它们但不能一起绘制。我怎样才能加入数据，因为年份是按小数分割的。我基本上想要结束的是这个 Plotting multiple time-series
r - 如何将变量的值分配给 plyr 中的列名？
有没有办法将变量的值分配给 plyr 中的结果列名？所以在这段代码中... column_name column_names df > # temporal variable > for (c
r - 使用 plyr 计算跨组的年同比变化的初学者提示
我是 plyr(和 R)的新手，正在寻找一些帮助来开始。以棒球数据集为例，我如何计算联赛和球队(lg 和球队)“击球数”的同比(yoy)变化？ library(plyr) df1 <- aggrega
r - 如何加入使用 plyr 函数拆分的数据框列表
我使用了plyr 包提供的strip_splits(df) 函数来获取数据框列表。我现在想将数据框列表连接在一起，并添加回用于拆分它们的变量。下面突出显示的文档使我相信这应该是可能的，但是我找不到合适
r - plyr summarize 只调用全局函数
我正在尝试将一个函数 (weight.func) 传递给另一个调用 ddply 的函数(包装器)。我希望 ddply 使用该函数 (weight.func) 作为其计算的一部分。当 weight.fu
r - 使用 plyr 在两列上加入两个海量数据帧
我有一个非常大的数据框，我需要在两列上连接到另一个数据框。我一直在使用 merge 来完成 ir，但 R 内存不足，表越大。是否有使用 dplyr 或 plyr 的类似解决方案？我听说他们需要更少的内
r - 如何在使用 plyr 时避免重复代码
我想为某些数据组合生成相同类型的图表。目前，我正在使用 plyr 来拆分数据并为每个组合执行一些代码。例如，假设 dataframe 包含公司、部门、地区和收入。这是我的伪代码: d_pl
r - 如何从 plyr 输出中进行总结而不是长
我喜欢 plyr 将数据帧拆分为多个数据集，然后对每个数据集执行相同操作的能力。最好的部分是当它以整洁紧凑且标记良好的表格的形式向您显示结果时。我喜欢使用 each() 将一堆计算放入一行中。但是，我
r - 如何使用 plyr 对行进行编号？
基本上我想要一个基于我的群组的自动增量 id 列 - 在这种情况下。(高棉语，剪切) > myDataFrame size kmer cvCut cumsum 1
r - 无法使用 plyr 包和使用列表
我无法理解 plyr 包的用法。我尝试使用它来拆分存储在列表中的数据帧，应用函数，将结果存储为数据帧并将数据帧再次组合为列表。因此，鉴于以下数据: #create test dfs
R Plyr Sapply 似乎真的很慢
我以为我有一个非常简单的数据帧转换，但出于某种原因我无法理解它似乎需要永恒，这让我怀疑它可能没有按照我的希望进行。任何人都可以解释一下吗？第 1 部分 - 将源数据转换为单独的列(实际 df 有 2
javascript - 为什么 plyr 没有在任何浏览器中以全屏模式全屏播放视频
我遇到了一个非常不同的问题，在 fullscreen我的模式plyrjs没有向 fullscreen 播放视频我试图重现问题中的代码相同密码笔但它适用于密码笔为什么？。问题:为什么相同的

首页

博学

6Ren·AI

商城

r - R 中 plyr::ldply(tapply) 的 dplyr 等价物是什么？