r - 按组在多个列上执行多个函数，并创建信息丰富的列名称-6ren

r - 按组在多个列上执行多个函数，并创建信息丰富的列名称

转载作者：行者123 更新时间：2023-12-04 06:52:45

如何调整数据表操作，以便除了每个类别的几个列的 sum 之外，
它还会同时计算其他函数，例如 mean 和计数 (.N) 并自动创建列名:“sum c1”、“sum c2”、“sum c4”、“mean c1”、“mean c2”、“意思是 c4”，最好还有 1 列“计数”？

我的旧解决方案是写出

mean col1 = ....
mean col2 = ....

等等，在data.table命令里面

哪个有效，但我认为效率极低，如果在新的应用程序版本中进行预编码将不再起作用，计算取决于用户在 R Shiny 应用程序中的选择，为哪些列计算什么。

我已经阅读了大量帖子和博客文章，但还没有完全弄清楚如何最好地做到这一点。我读到在某些情况下，根据您使用的方法(.sdcols、get、lapply 和或 by =)，对大型数据表的操作可能会变得非常缓慢。因此我添加了一个“相当大”的虚拟数据集

我的真实数据大约是 100k 行，100 列和 1-100 组。

library(data.table)
n = 100000
dt  = data.table(index=1:100000,
                 category = sample(letters[1:25], n, replace = T),
                 c1=rnorm(n,10000),
                 c2=rnorm(n,1000),
                 c3=rnorm(n,100),
                 c4 = rnorm(n,10)
)

# add more columns to test for big data tables 
lapply(c(paste('c', 5:100, sep ='')),
       function(addcol) dt[[addcol]] <<- rnorm(n,1000) )

# Simulate columns selected by shiny app user 

Colchoice <- c("c1", "c4")
FunChoice <- c(".N", "mean", "sum")

# attempt which now does just one function and doesn't add names
dt[, lapply(.SD, sum, na.rm=TRUE), by=category, .SDcols=Colchoice ]

预期输出是每组一行，每个选定列的每个函数对应一列。

Category  Mean c1 Sum c1 Mean c4 ...
A
B
C
D
E
......

可能是重复的，但我还没有找到我需要的确切答案

最佳答案

如果我理解正确，这个问题由两部分组成:

如何在列列表上使用多个函数进行分组和聚合，并自动生成新的列名。

如何将函数名称作为字符向量传递。

对于第 1 部分 ，这几乎是 Apply multiple functions to multiple columns in data.table 的副本，但附加要求结果应使用 by = 进行分组。
因此，必须通过在对 recursive = FALSE 的调用中添加参数 unlist() 来修改 eddi's answer :

my.summary = function(x) list(N = length(x), mean = mean(x), median = median(x))
dt[, unlist(lapply(.SD, my.summary), recursive = FALSE), 
   .SDcols = ColChoice, by = category]

    category c1.N   c1.mean c1.median c4.N   c4.mean c4.median
 1:        f 3974  9999.987  9999.989 3974  9.994220  9.974125
 2:        w 4033 10000.008  9999.991 4033 10.004261  9.986771
 3:        n 4025  9999.981 10000.000 4025 10.003686  9.998259
 4:        x 3975 10000.035 10000.019 3975 10.010448  9.995268
 5:        k 3957 10000.019 10000.017 3957  9.991886 10.007873
 6:        j 4027 10000.026 10000.023 4027 10.015663  9.998103
...

对于第 2 部分 ，我们需要从函数名称的字符向量中创建 my.summary()。这可以通过“在语言上编程”来实现，即将表达式组装为字符串，最后对其进行解析和评估:

my.summary <- 
  sapply(FunChoice, function(f) paste0(f, "(x)")) %>% 
  paste(collapse = ", ") %>% 
  sprintf("function(x) setNames(list(%s), FunChoice)", .) %>% 
  parse(text = .) %>% 
  eval()

my.summary

function(x) setNames(list(length(x), mean(x), sum(x)), FunChoice)
<environment: 0xe376640>

或者，我们可以循环遍历类别和 rbind() 之后的结果:

library(magrittr)   # used only to improve readability
lapply(dt[, unique(category)],
       function(x) dt[category == x, 
                      c(.(category = x), unlist(lapply(.SD, my.summary))), 
                      .SDcols = ColChoice]) %>% 
  rbindlist()

基准
到目前为止，已经发布了 4 个 data.table 和一个 dplyr 解决方案。至少有一个答案声称“超快”。因此，我想通过具有不同行数的基准来验证:

library(data.table)
library(magrittr)
bm <- bench::press(
  n = 10L^(2:6),
  {
    set.seed(12212018)
    dt <- data.table(
      index = 1:n,
      category = sample(letters[1:25], n, replace = T),
      c1 = rnorm(n, 10000),
      c2 = rnorm(n, 1000),
      c3 = rnorm(n, 100),
      c4 = rnorm(n, 10)
    )
    # use set() instead of <<- for appending additional columns
    for (i in 5:100) set(dt, , paste0("c", i), rnorm(n, 1000))
    tables()

    ColChoice <- c("c1", "c4")
    FunChoice <- c("length", "mean", "sum")
    my.summary <- function(x) list(length = length(x), mean = mean(x), sum = sum(x))
    
    bench::mark(
      unlist = {
        dt[, unlist(lapply(.SD, my.summary), recursive = FALSE),
           .SDcols = ColChoice, by = category]
      },
      loop_category = {
        lapply(dt[, unique(category)],
               function(x) dt[category == x, 
                              c(.(category = x), unlist(lapply(.SD, my.summary))), 
                              .SDcols = ColChoice]) %>% 
          rbindlist()
        },
      dcast = {
        dcast(dt, category ~ 1, fun = list(length, mean, sum), value.var = ColChoice)
        },
      loop_col = {
        lapply(ColChoice, function(col)
          dt[, setNames(lapply(FunChoice, function(f) get(f)(get(col))), 
                        paste0(col, "_", FunChoice)), 
             by=category]
        ) %>% 
          Reduce(function(x, y) merge(x, y, by="category"), .)
      },
      dplyr = {
        dt %>% 
          dplyr::group_by(category) %>% 
          dplyr::summarise_at(dplyr::vars(ColChoice), .funs = setNames(FunChoice, FunChoice))
      },
      check = function(x, y) 
        all.equal(setDT(x)[order(category)], 
                  setDT(y)[order(category)] %>%  
                    setnames(stringr::str_replace(names(.), "_", ".")),
                  ignore.col.order = TRUE,
                  check.attributes = FALSE
                  )
    )  
  }
)

绘制时更容易比较结果:

library(ggplot2)
autoplot(bm)

请注意对数时间刻度。
对于这个测试用例，unlist 方法总是最快的方法，其次是 dcast。 dplyr 正在追赶更大的问题大小 n 。 lapply/loop 两种方法的性能都较低。特别是， Parfait's approach 循环遍历列并随后合并子结果似乎对问题大小 n 相当敏感。
编辑:第二个基准
正如 jangorecki 所建议的，我用更多的行和不同数量的组重复了基准测试。
由于内存限制，最大的问题大小是 10 M 行乘以 102 列，占用 7.7 GB 内存。
因此，基准代码的第一部分修改为

bm <- bench::press(
  n_grp = 10^(1:3),
  n_row = 10L^seq(3, 7, by = 2),
  {
    set.seed(12212018)
    dt <- data.table(
      index = 1:n_row,
      category = sample(n_grp, n_row, replace = TRUE),
      c1 = rnorm(n_row),
      c2 = rnorm(n_row),
      c3 = rnorm(n_row),
      c4 = rnorm(n_row, 10)
    )
    for (i in 5:100) set(dt, , paste0("c", i), rnorm(n_row, 1000))
    tables()
    ...

正如 jangorecki 预期的那样，一些解决方案对组的数量比其他解决方案更敏感。特别是，loop_category 的性能随着组数的增加而下降得更厉害，而 dcast 似乎受到的影响较小。对于较少的组，unlist 方法总是比 dcast 快，而对于许多组， dcast 更快。但是，对于较大的问题， unlist 似乎领先于 dcast。
编辑 2019-03-12:计算语言，第三个基准
受 this follow-up question 的启发，我在语言方法上添加了一个计算，其中将整个表达式创建为字符串、解析和评估。
该表达式是由

library(magrittr)
ColChoice <- c("c1", "c4")
FunChoice <- c("length", "mean", "sum")
my.expression <- CJ(ColChoice, FunChoice, sorted = FALSE)[
  , sprintf("%s.%s = %s(%s)", V1, V2, V2, V1)] %>% 
  paste(collapse = ", ") %>% 
  sprintf("dt[, .(%s), by = category]", .) %>% 
  parse(text = .)
my.expression

expression(dt[, .(c1.length = length(c1), c1.mean = mean(c1), c1.sum = sum(c1), 
                  c4.length = length(c4), c4.mean = mean(c4), c4.sum = sum(c4)), by = category])

然后通过以下方式评估

eval(my.expression)

这产生

    category c1.length   c1.mean   c1.sum c4.length   c4.mean   c4.sum
 1:        f      3974  9999.987 39739947      3974  9.994220 39717.03
 2:        w      4033 10000.008 40330032      4033 10.004261 40347.19
 3:        n      4025  9999.981 40249924      4025 10.003686 40264.84
 4:        x      3975 10000.035 39750141      3975 10.010448 39791.53
 5:        k      3957 10000.019 39570074      3957  9.991886 39537.89
 6:        j      4027 10000.026 40270106      4027 10.015663 40333.07
 ...

我修改了第二个基准测试的代码以包含这种方法，但不得不将额外的列从 100 减少到 25，以应对更小的 PC 的内存限制。图表显示“eval”方法几乎总是最快或第二:

关于r - 按组在多个列上执行多个函数，并创建信息丰富的列名称，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/53884353/

文章推荐： neural-network - 为什么卷积神经网络的输入总是平方图像？

文章推荐： Magento loadByAttribute 用于自定义类别属性

文章推荐： asp.net - ASP.NET 页面中的各种 asp 控件

Android MediaPlayer 信息/警告 (703, 0) 信息/警告 (701, 0) 慢速 wifi 或数据连接
03-25 05:52:15.329 8029-8042/com.mgh.radio W/MediaPlayerNative: info/warning (703, 0) 03-25 05:52:15
c# - FrameworkElementFactory 信息
我一直在 Internet 上到处寻找关于 FrameworkElementFactory 类的适当文档，但我似乎找不到有关它的适当教程或有用信息。请问对这个问题了解更多的人可以给我更多的信息吗？这
c - 如何在线程之间发送变量/信息
我需要知道一个线程在进入等待状态之前如何将其ID发送到另一个线程。我想传递一个带有其ID的变量，但我不知道该怎么做。最佳答案如果只有一个线程及其父线程，则可以使用全局变量，因为它们在所有线程之间共
rust - 如何阅读打印品前的文字!信息？
我正在尝试制作一个程序，该程序可以读取命令行上的所有单词，然后将其打印在新行上，而我想要做的是这样的: Some text: hello 但是相反，我得到了这样的东西: Some text: Hell
rabbitmq - 如何获取有关rabbitmq连接操作的详细日志/信息？
我有一个连接到rabbitmq服务器的python程序。当该程序启动时，它连接良好。但是当rabbitmq服务器重新启动时，我的程序无法重新连接到它，并留下错误“Socket已关闭”(由kombu产生
kubernetes - 如何在CD输出中包含Pod启动日志/信息？
我正在设置CI / CD管道。部署步骤运行以下命令: kubectl apply -f manifest.yml --namespace kubectl rollout status Deploym
java - 如何在java中使用ews从电子邮件中获取 "To"信息
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
SVN 信息 - 我上次更改的日期在我的文本上次更新日期之前
这是我在文件上运行 svn info 时输出的一部分: Last Changed Author: [user] Last Changed Rev: 269612 Last Changed Date:
java - android制作一个音乐应用程序访问sd卡以获取音乐数据帮助/信息
所以我正在构建这个音乐应用程序，到目前为止它只扫描 SD 卡内的特定文件夹。这将返回路径，然后播放它们。几个小时前我得知android系统中有一个媒体文件数据库所以我想知道这个媒体文件数据库是否存
python - 如何在树状图上添加%信息？
我正在绘制树形图，并且想知道如何绘制树类的相对百分比，即 A组=100 B地=30 C地=50 D 地 =20 然后，在图中，应该添加: A 组“50%” B 组“15%” 等在其“Group X”标
php - 如何在用户首次登录时显示教程/信息？
我正在构建一个社交网站，我想知道如何在用户首次登录时显示交互式教程和信息。比如只有在第一次登录时，用户才会被要求在他们的个人资料中填写更多信息。我怎样才能通过 php 和 mysql 实现这一点？例子
java servlet 信息
我是 java servlet 的新手。我研究了一些关于 servlet 的代码，但我真的很想知道更多基本的东西以及它是如何工作的。我只是想知道什么类型的 Material /内容可以从 java s
mysql - 避免多个内部联接从同一个表添加新列(信息)
我想知道是否有办法为 user_id、sender_user_id 和 recipient_user_id 提供 name 信息来自 this fiddle 中的模式. 我现在唯一能想到的办法就是做这
c++ - 存储2人c++信息
这是我存储2个大学生信息的源代码。我想从输入中获取每个人的姓名、姓氏、ID 和 5 分，然后在输出中显示它们。我在输出中显示分数时遇到问题。请帮忙 #include using namespace
python - 从图像中提取统计数据/信息
假设我有一张带有条形图的图像，如下所示: 我想提取条形图和标签的值，除了训练 ML 模型之外，还有其他方法吗？我有一堆图像，我为其生成了图表和一些描述。我目前正尝试仅从我能够做到的描述中提取信息，但
iphone - GKTurnBasedParticipant 信息
有没有办法从 GKTurnBasedParticipant 对象中检索玩家的名字？似乎除了根据类引用的难看的 playerID 之外，没有办法显示有关游戏玩家的相关信息。还是我遗漏了什么？谢谢...
c# - KeyNotFoundException 信息
我有一个随机抛出“KeyNotFoundException”的 C# Silverlight 应用程序。我不知道找不到什么 key 。这让我想到了两个问题: KeyNotFoundException
iOS获取本地音频文件(属性/信息)
本文实例为大家分享了ios获取本地音频文件的具体代码，供大家参考，具体内容如下获取本地音频文件地址： ?
Sql查询MySql数据库中的表名和描述表中字段(列)信息
下面为大家介绍利用SQL查询语句获取Mysql数据库中表的表名，表描述、字段ID、字段名、数据类型、长度、精度、是否可以为null、默认值、是否自增、是否是主键、列描述 1、查询表信息（表名/表
c# - 是否有可能获得例如代码中的位置成员(member)信息？
问题有没有办法获取代码中使用属性的位置，或声明成员变量的位置？我不是在寻找解决此问题的方法，只是寻求一个简单的答案，无论这在技术上是否可行。一些背景信息我已经定义了一个属性，该属性使用提供给属

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 按组在多个列上执行多个函数，并创建信息丰富的列名称