R:让group_by和summary更高效-6ren

R:让group_by和summary更高效

转载作者：行者123 更新时间：2023-12-04 08:56:25

26

4

这个问题在这里已经有了答案:

Group by multiple columns and sum other multiple columns

(7 个回答)

12 个月前关闭。

我有一个名为 data 的数据集带列标题 Region , 2006 , 2007 ，依此类推，直到 2020 . region列给出了地区的名称，而年份列给出了当年的人口。例如 2006列出特定地区当年的人口，2007列出特定地区当年的人口，依此类推。
下面的代码给了我我想要的输出(它按地区显示了每年的总人口)。但是，键入此代码非常耗时。有没有办法让这段代码更高效并节省输入 15 行不同的时间？

newData <- data %>%
  group_by(Region) %>%
  summarise(totalPop2006 = sum(`2006`, na.rm = TRUE), 
            totalPop2007 = sum(`2007`, na.rm = TRUE),
            totalPop2008 = sum(`2008`, na.rm = TRUE),
            totalPop2009 = sum(`2009`, na.rm = TRUE),
            totalPop2010 = sum(`2010`, na.rm = TRUE),
            totalPop2011 = sum(`2011`, na.rm = TRUE),
            totalPop2012 = sum(`2012`, na.rm = TRUE),
            totalPop2013 = sum(`2013`, na.rm = TRUE),
            totalPop2014 = sum(`2014`, na.rm = TRUE),
            totalPop2015 = sum(`2015`, na.rm = TRUE),
            totalPop2016 = sum(`2016`, na.rm = TRUE),
            totalPop2017 = sum(`2017`, na.rm = TRUE),
            totalPop2018 = sum(`2018`, na.rm = TRUE),
            totalPop2019 = sum(`2019`, na.rm = TRUE),
            totalPop2020 = sum(`2020`, na.rm = TRUE)       
            ) %>%
  ungroup() %>%
  arrange(Region)

谢谢!

最佳答案

我们可以使用 summarise与 across

library(dplyr)
data %>%
   group_by(Region) %>% 
   summarise(across(`2006`:`2020`, ~ sum(., na.rm = TRUE),
             .names = 'totalPop{col}'), .groups = 'drop') %>%
   arrange(Region)

使用默认数据集“mtcars”

data(mtcars)
mtcars %>%
     group_by(cyl) %>%
     summarise(across(disp:wt, ~ sum(., na.rm = TRUE), .names = 'totalPop{col}'), 
          .groups = 'drop')
# A tibble: 3 x 5
#    cyl totalPopdisp totalPophp totalPopdrat totalPopwt
#  <dbl>        <dbl>      <dbl>        <dbl>      <dbl>
#1     4        1156.        909         44.8       25.1
#2     6        1283.        856         25.1       21.8
#3     8        4943.       2929         45.2       56.0

或在 base R与 aggregate

aggregate(. ~ Region, data[c('Region', 2006:2020)],
         sum, na.rm = TRUE, na.action = NULL)

关于R:让group_by和summary更高效，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63805963/

26

4

0

文章推荐： algorithm - 一组点与特定点之间的最小距离

文章推荐： reactjs - 上下文 - 分派(dispatch)不是函数(React)

文章推荐： azure - 如何从另一个模块调用物联网边缘代理上的直接方法？

python - model.summary()-AttributeError : 'Tensor' object has no attribute 'summary'
这是我的进口: import tensorflow as tf import keras from keras.models import Sequential, Model from keras.l
python - 属性错误: module 'tensorflow.python.summary.summary' has no attribute 'FileWriter'
我收到此错误，尽管我在所有地方都提到 file_writer = tf.summary.FileWriter('/path/to/logs', sess.graph) 是正确的实现的this和 thi
linux - 属性错误 : module 'tensorflow.python.summary.summary' has no attribute 'scalar'
我一直在尝试研究 tensorboard(来自 tensorflow(从 github fork ，也使用最新版本)，每当我使用“标量”或“直方图”函数时都会出现上述错误。为什么标量函数指向 te
asp.net - 隐藏错误但保留 ASP.NET Validation summary 的 validation summary header
我尝试通过创建一个 css 并将其应用于验证摘要来解决此问题。以下解决方案仅适用于 Firefox 和 Google Chrome，但不适用于 IE(7、8 和 9)。以前有人遇到过这种情况吗？这是
r - summary() 舍入
有人可以解释为什么 R 这样做吗？在整数值上舍入最大值和最小值似乎非常有缺陷。 summary(1:1283932) Min. 1st Qu. Median Mean 3rd Qu.
c# - 获取网页的 "summary"
我有一个棘手的问题，我想生成几段给定 url 的“描述”，通常是文章的开头。元描述字段是一种方法，但它并不总是好的或设置正确。公平地说，从屏幕抓取的 HTML 中完成此操作有点问题。我有一个大致的想
ios - 调试器只显示字典的值和键的 "(no summary)"
我正在使用 AFNetworking 从我们的服务器获取 JSON 提要，然后我将 AFNetworking 给我的响应对象转换为 NSArray，我之前已经做过一百万次，没有问题。 JSON 只是一
R语言-summary()函数的用法解读
summary()：获取描述性统计量，可以提供最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计等。结果解读如下： 1. 调用：Call lm(
228. Summary Ranges 汇总区间
题目地址：https://leetcode.com/problems/summary-ranges/description/ 题目描述： Given a sorted integer array
r - summary.rq 输出取决于样本大小
我发现(见下文)函数 summary.rq (第 88 页)来自 quantreg 包打印不同的输出，这取决于样本量是大于等于还是小于 1001。我知道，rq() 使用不同的方法，具体取决于样本大小
tensorflow - model.summary() 输出与模型定义不一致
我正在使用子类化 API 构建一个简单的转换网络，我想使用摘要方法来了解我的模型的架构。但是，当我调用 model.summary() 时，图层乱序并且输出形状也没有显示。有没有一种干净的方法来解决这
SVN新手: quick summary of how to use it?
[对于那些不在家的人，这是 Rolling My Own Version Control 的续集;)] 所以我放弃并安装了 TortoiseSVN(为了和 friend 一起做一个项目，我的个人版本控
R - summary.princomp 的限制输出
我正在对包含 1000 多个变量的数据集运行主成分分析。我正在使用 R Studio，当我运行摘要以查看组件的累积方差时，我只能看到最后几百个组件。如何限制摘要仅显示前 100 个组件？最佳答案我
推特卡片 : summary vs summary_large_image
我阅读了这两个文档页面:summary和 summary-card-with-large-image ，但我真的看不出有什么区别。例子: 最后两者之间的实际区别是什么？渲染看起来相同:
r - summary.lm 输出自定义
我希望我的 lm 摘要输出比平时更紧凑。我想删除一些换行符，“残差”部分，带有“系数”一词的行。积极的一面是，summary.lm 是作为原生 R 函数编写的，所以大概我可以将它复制到一个文件中，更改
html - 使用
标签时缺少显示三角形
我在使用标签时遇到问题。我的问题出在 Jupyter Notebook 中，但它是可重现的 here . 当我在 Markdown 单元格中有以下内容时: Dropdown label H
python - 尚未在model.summary()上建立此模型错误
我将keras模型定义如下 class ConvLayer(Layer) : def __init__(self, nf, ks=3, s=2, **kwargs): self
iphone - NSString "invalid summary"
好吧，我已经阅读了很多有关此问题的帖子和资源，但我仍然遇到同样的问题。我有一些 NSString 变量，我需要将它们作为类范围的变量在整个类的多个位置使用。我尝试了很多设置组合。首先，我确实在界面中声
r - 获得每组 `summary` 输出的整洁方法？
我的代码经常使用 tapply 和 summary 如下所示: data % map(~ as.numeric(round(.x, 2))) %>% map_dfr(set_names, na
tensorflow - 如何手动创建 tf.Summary()
我经常想记录 python 变量——而不是 tf 张量。在文档中，它说“您可以传递用自己的数据填充的 tf.Summary Protocol Buffer ”，但没有 tf.Summary 的文档我

首页

博学

6Ren·AI

商城

R:让group_by和summary更高效