r - 组不互斥时类似于 group

r - 组不互斥时类似于 group_by 的功能

转载作者：行者123 更新时间：2023-12-04 18:30:54

25

4

我想在 R 中创建一个函数，类似于 dplyr的group_by功能，当与 summarise 结合使用时可以为组成员不互斥的数据集提供汇总统计信息。即，观察可以属于多个组。考虑它的一种方法可能是考虑标签；观察可能属于一个或多个可能重叠的标签。

例如，取 R 的 esoph数据集 (https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/esoph.html) 记录了食管癌的病例对照研究。假设我对总体和每个“标签”的癌症病例的数量和比例感兴趣，其中标签是:65 岁以上； 80+ 克/天酒精； 20 克以上/天的烟草；以及满足前 3 个标准的“高风险”组。
让我们将数据集转换为长格式(每行一个参与者)，然后将这些标签(逻辑列)添加到数据集中:

library('dplyr')
data(esoph)
esophlong = bind_rows(esoph %>% .[rep(seq_len(nrow(.)), .$ncases), 1:3] %>% mutate(case=1),
                      esoph %>% .[rep(seq_len(nrow(.)), .$ncontrols), 1:3] %>% mutate(case=0)
            ) %>% 
            mutate(highage=(agegp %in% c('65-74','75+')),
                   highalc=(alcgp %in% c('80-119','120+')),
                   hightob=(tobgp %in% c('20-29','30+')),
                   highrisk=(highage & highalc & hightob)
            )

我通常的方法是创建一个数据集，其中每个观察结果都为其所属的每个标签重复，然后 summarise这个数据集:

esophdup = bind_rows(esophlong %>% filter(highage) %>% mutate(tag='age>=65'),
                     esophlong %>% filter(highalc) %>% mutate(tag='alc>=80'),
                     esophlong %>% filter(hightob) %>% mutate(tag='tob>=20'),
                     esophlong %>% filter(highrisk) %>% mutate(tag='high risk'),
                     esophlong %>% filter() %>% mutate(tag='all')
           ) %>%
           mutate(tag=factor(tag, levels = unique(.$tag)))

summary = esophdup %>%
          group_by(tag) %>%
          summarise(n=n(), ncases=sum(case), case.rate=mean(case))

这种方法对于大型数据集或大量标签效率低下，而且我经常会耗尽内存来存储它。

另一种方法是 summarise每个标签分开，然后绑定(bind)这些汇总数据集，如下:

summary.age = esophlong %>%
              filter(highage) %>%
              summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
              mutate(tag='age>=65')

summary.alc = esophlong %>%
              filter(highalc) %>%
              summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
              mutate(tag='alc>=80')

summary.tob = esophlong %>%
              filter(hightob) %>%
              summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
              mutate(tag='tob>=20')

summary.highrisk = esophlong %>%
              filter(highrisk) %>%
              summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
              mutate(tag='high risk')

summary.all = esophlong %>%
              summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
              mutate(tag='all')

summary=bind_rows(summary.age,summary.alc,summary.tob,summary.highrisk,summary.all)

当我有大量标签或者我想在整个项目中为不同的汇总度量经常重用标签时，这种方法既费时又乏味。

我想到的功能，比如说 group_by_tags(data, key, ...) ，它包括一个参数来指定分组列的名称，应该像这样工作:

summary = esophlong %>% 
          group_by_tags(key='tags',
                        'age>=65'=highage,
                        'alc>=80'=highalc,
                        'tob>=20'=hightob,
                        'high risk'=highrisk,
                        'all ages'=1
          ) %>%
          summarise(n=n(), ncases=sum(case), case.rate=mean(case))

摘要数据集如下所示:

> summary
       tags     n ncases case.rate
1   age>=65   273     68 0.2490842
2   alc>=80   301     96 0.3189369
3   tob>=20   278     64 0.2302158
4 high risk    11      5 0.4545455
5       all  1175    200 0.1702128

更好的是，它可以采用“因素”和“逻辑”类型的变量，以便它可以单独总结每个年龄组、65 岁以上的人和每个人:

summaryage = esophlong %>% 
          group_by_tags(key='Age.group',
                        agegp,
                        '65+'=(agegp %in% c('65-74','75+')),
                        'all'=1                 
          ) %>%
          summarise(n=n(), ncases=sum(case), case.rate=mean(case))

>summaryage
  Age.group     n ncases case.rate
1     25-34   117      1 0.0085470
2     35-44   208      9 0.0432692
3     45-54   259     46 0.1776062
4     55-64   318     76 0.2389937
5     65-74   216     55 0.2546296
6       75+    57     13 0.2280702
7       65+   273     68 0.2490842
8       all  1175    200 0.1702128

... 可能无法实现相反，您可能需要为标签传递列名的向量/列表。

有任何想法吗？

编辑:需要明确的是，解决方案应该将标签/组定义和所需的汇总统计信息作为参数，而不是内置到函数本身中。或者作为两步 data %>% group_by_tags(tags) %>% summarise_tags(stats)或一步 data %>% summary_tags(tags,stats)过程。

最佳答案

这是@eddi 答案的变体。我正在接受 highage 的定义等作为函数工作的一部分:

library(data.table)
custom_summary = function(DT, tags, stats){
    setDT(DT)
    rows = stack(lapply(tags[-1], function(x) DT[eval(x), which=TRUE]))
    DT[rows$values, eval(stats), by=.(tag = rows$ind)]
}

还有一些示例用法:

data(esoph)
library(dplyr)
esophlong = bind_rows(esoph %>% .[rep(seq_len(nrow(.)), .$ncases), 1:3] %>% mutate(case=1),
                      esoph %>% .[rep(seq_len(nrow(.)), .$ncontrols), 1:3] %>% mutate(case=0)
            )

custom_summary(
    DT = esophlong, 
    tags = quote(list(
        'age>=65'   = agegp %in% c('65-74','75+'),
        'alc>=80'   = alcgp %in% c('80-119','120+'),
        'tob>=20'   = tobgp %in% c('20-29','30+'),
        'high risk' = eval(substitute(`age>=65` & `alc>=80` & `tob>=20`, as.list(tags))),
        'all ages'  = TRUE
    )),
    stats = quote(list(
        n           = .N, 
        n_cases     = sum(case), 
        case.rate   = mean(case)
    ))
)

         tag    n n_cases case.rate
1:   age>=65  273      68 0.2490842
2:   alc>=80  301      96 0.3189369
3:   tob>=20  278      64 0.2302158
4: high risk   11       5 0.4545455
5:  all ages 1175     200 0.1702128

使用技巧 eval里面 DT[...]解释 in the data.table FAQ .

关于r - 组不互斥时类似于 group_by 的功能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39106850/

25

4

0

文章推荐： qt - 如何滚动到 QPlainTextEdit 中的指定行？

文章推荐： materialize - 我的 Quill 编辑器 Bold 不起作用？

文章推荐： symfony - 如何在 FormType 中使用 Repository 自定义函数

文章推荐： phpstorm - 在 PHPStorm 中隐藏更改标记

Java 互斥
我只是有一个关于 Java 并发编程的简单问题。例如，我有一个 NxN 矩阵，矩阵的每一行都有一个对应的线程，如果每一行中的线程之间没有交互，如果多个线程同时访问和修改矩阵的单独行是否安全(或正确)？
javascript - 互斥 - jwPlayer
jwplayer("myElement_0").onPlay(function(){ pausePlayers(1); alert('0 has started'); }); jwplayer("my
c++:互斥、守卫和函数调用
我在想。当我使用一个std::mutex _lock 并想依赖守卫来释放它时，我可以这样使用吗？ class MyClass{ private: mutable std::mutex _loc
c# - 互斥 : is this safe?
这种互斥模式是否像我认为的那样安全？如果是这样，你怎么调用它？ lock (_lock) { if (_flag) return; else _flag = true; } try {
c++ - 互斥(在静态库中)
我有一个静态库来访问数据库。它有一个函数 readMaximum()。 readMaximum() 从数据库中读取最大值。此函数是线程安全的(使用互斥量)。但问题是: 有两个进程A.exe和B.e
javascript - 锁的基本逻辑——互斥
我正在为互斥锁的逻辑而苦苦挣扎；我在这里检查 key 是否被拿走，如果没有，我们拿走它，完成后释放它；但是你能帮我看看我怎样才能有一个循环来检查 key 直到它可用吗？ rdb.setnx(lockk
prolog - CLP(FD) 互斥
我正在使用 clp(fd) 编写 Prolog 程序并且我很难实现我想要的约束之一。输出是一个整数列表(长度取决于程序另一部分的输入)，其中有某些相互排斥的预定义数字对，每对中的一个数字必须在输出中
docker - 互斥 docker 容器的马拉松约束
我正在尝试使用 mesos/marathon 实现一个 lizardfs 集群。为此，我创建了一些 docker 镜像。我需要获取某种类型的 docker 容器(lizardfs-master)，而
php - 互斥 MySQL 全文搜索
假设我有一个包含以下列的 MySQL 表: |variables|1. | 'a' |2. | 'a b' |3. | 'a b c' |4. | ... | How can
c# - 如何使 RadioButtons 互斥
我在一个表单上有 7 个单选按钮其中3个属于一个组，4个属于另一个组我希望 RadioButtons 在组内互斥。这可以通过将它们放在两个 GroupBox 中来实现，有没有什么办法可以不把它
javascript - 使两个字段与 knockout 互斥
我正在尝试使文本输入和复选框相互排斥。默认情况下，文本框应包含“0”，复选框应为 false。如果用户选中该复选框，则该文本框应被清空。如果用户在文本框中输入值，则应取消选中该复选框。任何时候都不应
c - Posix Pthread 互斥
我已经在代码的注释中写下了我的问题。我正在尝试使用 pthreads 使我的代码并行。首先，我想通过多个线程并行地在内存中写入大量数据。写入数据后，我想通过相同的线程执行此数据。执行数据后，我想读取
c# - 锁定、监视、互斥
这个问题在这里已经有了答案: 关闭 13 年前。 Possible Duplicate: Monitor vs Mutex in c# 你好，在这个网站上，我发现来自不同人的不同答案令人困惑。仍然
linux - 与 pthread 互斥
我需要调用一个返回唯一 id 的函数， int getid() { static id=0; id++; return id; } 多个线程需要调用这个函数，我的问题是我不确定我需要在哪里锁定互斥量，
ios - 使 NSOperations 互斥
请引用来自 WWDC 的视频 https://developer.apple.com/videos/play/wwdc2015/226/演讲者展示了我们可以在两个相同类型的 NSopeation 实例
ios - CoreData 将一条记录标记为最爱(互斥)
概述: 我有一个使用 CoreData 的 iOS 应用程序> 有一个名为Animal的实体它有一组记录Lion、Tiger和Elephant 我想将只有一个记录标记为收藏。具有相同方法的相似实体
c++ - DLL 互斥 - 一个例子
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: DLL thread safety 你好我正在 MS VS C++ express 中编写一个 DLL 文
c# - 跨用户 C# 互斥
我的应用程序被迫使用第 3 方模块，如果在同一台机器上同时启动两个实例，该模块将使 Windows 蓝屏。为了解决这个问题，我的 C# 应用程序有一个互斥量: static Mutex mutex =
go - "selective"goroutines 互斥
我是 Go 的新手，我想实现一个自定义的互斥机制，每个应用程序用户一次可以执行一个 goroutine。为简化起见，将 U1 和 U2 视为应用程序用户以及 F1(userId)、F2(userId)
javascript -

首页

博学

6Ren·AI

商城

r - 组不互斥时类似于 group_by 的功能