r - 在同一个 dplyr 链中使用 summarise 和 summarise

r - 在同一个 dplyr 链中使用 summarise 和 summarise_at

转载作者：行者123 更新时间：2023-12-01 16:23:16

25

4

假设我想在用不同的函数分组后总结一个数据框。我怎样才能做到这一点？

mtcars %>% group_by(cyl) %>% summarise(size = n())
# A tibble: 3 x 2
    cyl  size
  <dbl> <int>
1     4    11
2     6     7
3     8    14

但是如果我尝试:

mtcars %>% group_by(cyl) %>% summarise(size = n()) %>% summarise_at(vars(c(mpg, am:carb)), mean)
Error in is_string(y) : object 'carb' not found

如何首先使用 n() 获取每个组的大小，然后获取其他所选特征的平均值？

最佳答案

这是在分组变量的两个汇总操作上使用 dplyr::inner_join() 的一种方法:

mtcars %>% 
  group_by(cyl) %>% 
  summarise(size = n()) %>% 
  inner_join( 
    mtcars %>%
      group_by(cyl) %>%
      summarise_at(vars(c(mpg, am:carb)), mean),
    by='cyl' )

输出是:

# A tibble: 3 x 6
    cyl  size   mpg    am  gear  carb
  <dbl> <int> <dbl> <dbl> <dbl> <dbl>
1     4    11  26.7 0.727  4.09  1.55
2     6     7  19.7 0.429  3.86  3.43
3     8    14  15.1 0.143  3.29  3.5

关于r - 在同一个 dplyr 链中使用 summarise 和 summarise_at，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57385799/

25

4

0

文章推荐： google-chrome-extension - Chrome 扩展 : chrome. 存储未定义

文章推荐： r - 计算窗口中的秒数/毫秒数

r - 使用胶水语法将多个数据变量传送到 "summarise"
这个问题在这里已经有了答案: Summarizing multiple columns with dplyr? [duplicate] (5 个回答) 去年关闭。遵循 https://www.tid
r - dplyr::summarise() 函数中的自动舍入
这个问题在这里已经有了答案: Why does as_tibble() round floats to the nearest integer? (1 个回答) 1年前关闭。我想知道是否有任何简单的
dplyr 中 summarise() 函数的逆向
这个问题在这里已经有了答案: Repeat each row of data.frame the number of times specified in a column (10 个答案) 关闭
r - ddply + summarise 用于在大量列中重复相同的统计函数
好的，接下来是第二个 R 问题。我的数据: Timestamp St_01 St_02 ... 1 2008-02-08 00:00:00 26.020 25.840
r - dplyr summarise() 具有来自单个函数的多个返回值
我想知道是否可以通过 summarise 使用函数( dplyr 0.1.2 ) 返回多个值(例如 describe 包中的 psych 函数)。如果没有，是因为它还没有实现，还是有理由认为它不是一
r - 如何将匿名函数传递给 dplyr summarise
我有一个包含 3 列的简单数据框:名称、目标和实际。因为这是更大数据帧的简化，所以我想使用 dplyr 来计算每个人实现目标的次数。 df y){return(0)}
r - "group_by->summarise->mean()"花费的时间比预期的要长
我有一个包含大约 420 万个观察值的数据集。我的代码如下: new_dataframe = original_dataframe %>% group_by(user_id, date) %>%
r - dplyr summarise()和summarise_each()对提供的函数进行额外的调用
似乎summarise和summarise_each正在对其提供的回调函数进行不必要的额外调用。假设我们有以下内容 X % group_by( Group ) %>% summarise_each(
r - 使用 dplyr::summarise 中的数据函数
假设我有一个返回单个数字的 data.frame 函数，现在我想在 dplyr 中使用 summarise 新变量应该是此函数适用于由另一个变量分组的 data.frame。这是一个愚蠢的例子 df
r - group_by() summarise() 和权重百分比 - R
假设一家公司有 3 位老板和 20 位员工，其中每个员工完成了 n_Projects，总体绩效百分比: > df df Boss Employee n_Projects Performanc
r - 如何将 dplyr 中的 "summarise"与动态列名一起使用？
我正在使用 summarize 从表格中总结组均值R 中 dplyr 包中的函数。我想动态地执行此操作，使用存储在另一个变量中的列名字符串。以下是“正常”方式，当然可以工作: myTibble
r - 使用 'summarise' 的数据帧列的第二(或第三)最大值
假设我有一个这样的数据框: group1 % group_by(group1) %>% arrange(desc(value)) %>% slice(seq_len(3)) %>% m
r - weighted.mean, summarise() 和 across()
我想按数字聚合以下数据框(变量 y 和 z)并按“权重”对其加权。其工作方式如下: df = data.frame(number=c("a","a","a","b","c","c"), y=c(1,2
r - dplyr summarise() 和 summarise_each() 对提供的函数进行额外调用
看来summarise和 summarise_each正在对它们提供的回调函数进行不必要的额外调用。假设我们有以下 X % group_by( Group ) %>% summarise_each(
r - 使用 summarise() 函数时出现 NA 的标准偏差
我正在尝试计算在 RStudio 中找到的出生体重数据集 ( birthwt ) 的描述性统计数据。但是，我只对几个变量感兴趣:age , ftv , ptl和 lwt . 这是我到目前为止的代码:
r - group_by() 和 summarise() 与所有组合(包括不存在的组合)
基本上，我想要列 i 和 j 的所有唯一组合；并期望 k 列中的 NA 如果它不可用(类似于执行 group_by & summarise，但是所有独特的可能组合)。 tidyverse 中是否有任何
python - 是否有相当于 dplyr::summarise 的 Pandas ？
在R/dplyr中，我可以做到 summarise(iris, max_width=max(Sepal.Width), min_width=min(Sepal.Width)) 并得到: max_w
Summarise + case_when with n()(用n()汇总+Case_When)
我想知道我在这里做错了什么。。我尝试结合使用case_When()和SUMMISE()来获取每个id的摘要，具体取决于每个id的行数。。创建于2023-09-09，Reprex v2.0.2。但我只想
Summarise + case_when with n()(用n()汇总+Case_When)
我想知道我在这里做错了什么。。我尝试结合使用case_When()和SUMMISE()来获取每个id的摘要，具体取决于每个id的行数。。创建于2023-09-09，Reprex v2.0.2。但我只想
Summarise + case_when with n()(用n()汇总+Case_When)
我想知道我做错了什么。。我尝试结合使用case_When()和SUMMISE()来获取每个id的摘要，具体取决于每个id的行数。。创建于2023-09-09，Reprex v2.0.2。但我只想有：

首页

博学

6Ren·AI

商城

r - 在同一个 dplyr 链中使用 summarise 和 summarise_at