- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想在 R 中创建一个函数,类似于 dplyr
的group_by
功能,当与 summarise
结合使用时可以为组成员不互斥的数据集提供汇总统计信息。即,观察可以属于多个组。考虑它的一种方法可能是考虑标签;观察可能属于一个或多个可能重叠的标签。
例如,取 R 的 esoph
数据集 (https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/esoph.html) 记录了食管癌的病例对照研究。假设我对总体和每个“标签”的癌症病例的数量和比例感兴趣,其中标签是:65 岁以上; 80+ 克/天酒精; 20 克以上/天的烟草;以及满足前 3 个标准的“高风险”组。
让我们将数据集转换为长格式(每行一个参与者),然后将这些标签(逻辑列)添加到数据集中:
library('dplyr')
data(esoph)
esophlong = bind_rows(esoph %>% .[rep(seq_len(nrow(.)), .$ncases), 1:3] %>% mutate(case=1),
esoph %>% .[rep(seq_len(nrow(.)), .$ncontrols), 1:3] %>% mutate(case=0)
) %>%
mutate(highage=(agegp %in% c('65-74','75+')),
highalc=(alcgp %in% c('80-119','120+')),
hightob=(tobgp %in% c('20-29','30+')),
highrisk=(highage & highalc & hightob)
)
summarise
这个数据集:
esophdup = bind_rows(esophlong %>% filter(highage) %>% mutate(tag='age>=65'),
esophlong %>% filter(highalc) %>% mutate(tag='alc>=80'),
esophlong %>% filter(hightob) %>% mutate(tag='tob>=20'),
esophlong %>% filter(highrisk) %>% mutate(tag='high risk'),
esophlong %>% filter() %>% mutate(tag='all')
) %>%
mutate(tag=factor(tag, levels = unique(.$tag)))
summary = esophdup %>%
group_by(tag) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case))
summarise
每个标签分开,然后绑定(bind)这些汇总数据集,如下:
summary.age = esophlong %>%
filter(highage) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
mutate(tag='age>=65')
summary.alc = esophlong %>%
filter(highalc) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
mutate(tag='alc>=80')
summary.tob = esophlong %>%
filter(hightob) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
mutate(tag='tob>=20')
summary.highrisk = esophlong %>%
filter(highrisk) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
mutate(tag='high risk')
summary.all = esophlong %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case)) %>%
mutate(tag='all')
summary=bind_rows(summary.age,summary.alc,summary.tob,summary.highrisk,summary.all)
group_by_tags(data, key, ...)
,它包括一个参数来指定分组列的名称,应该像这样工作:
summary = esophlong %>%
group_by_tags(key='tags',
'age>=65'=highage,
'alc>=80'=highalc,
'tob>=20'=hightob,
'high risk'=highrisk,
'all ages'=1
) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case))
> summary
tags n ncases case.rate
1 age>=65 273 68 0.2490842
2 alc>=80 301 96 0.3189369
3 tob>=20 278 64 0.2302158
4 high risk 11 5 0.4545455
5 all 1175 200 0.1702128
summaryage = esophlong %>%
group_by_tags(key='Age.group',
agegp,
'65+'=(agegp %in% c('65-74','75+')),
'all'=1
) %>%
summarise(n=n(), ncases=sum(case), case.rate=mean(case))
>summaryage
Age.group n ncases case.rate
1 25-34 117 1 0.0085470
2 35-44 208 9 0.0432692
3 45-54 259 46 0.1776062
4 55-64 318 76 0.2389937
5 65-74 216 55 0.2546296
6 75+ 57 13 0.2280702
7 65+ 273 68 0.2490842
8 all 1175 200 0.1702128
...
可能无法实现相反,您可能需要为标签传递列名的向量/列表。
data %>% group_by_tags(tags) %>% summarise_tags(stats)
或一步
data %>% summary_tags(tags,stats)
过程。
最佳答案
这是@eddi 答案的变体。我正在接受 highage
的定义等作为函数工作的一部分:
library(data.table)
custom_summary = function(DT, tags, stats){
setDT(DT)
rows = stack(lapply(tags[-1], function(x) DT[eval(x), which=TRUE]))
DT[rows$values, eval(stats), by=.(tag = rows$ind)]
}
data(esoph)
library(dplyr)
esophlong = bind_rows(esoph %>% .[rep(seq_len(nrow(.)), .$ncases), 1:3] %>% mutate(case=1),
esoph %>% .[rep(seq_len(nrow(.)), .$ncontrols), 1:3] %>% mutate(case=0)
)
custom_summary(
DT = esophlong,
tags = quote(list(
'age>=65' = agegp %in% c('65-74','75+'),
'alc>=80' = alcgp %in% c('80-119','120+'),
'tob>=20' = tobgp %in% c('20-29','30+'),
'high risk' = eval(substitute(`age>=65` & `alc>=80` & `tob>=20`, as.list(tags))),
'all ages' = TRUE
)),
stats = quote(list(
n = .N,
n_cases = sum(case),
case.rate = mean(case)
))
)
tag n n_cases case.rate
1: age>=65 273 68 0.2490842
2: alc>=80 301 96 0.3189369
3: tob>=20 278 64 0.2302158
4: high risk 11 5 0.4545455
5: all ages 1175 200 0.1702128
eval
里面
DT[...]
解释
in the data.table FAQ .
关于r - 组不互斥时类似于 group_by 的功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39106850/
我只是有一个关于 Java 并发编程的简单问题。例如,我有一个 NxN 矩阵,矩阵的每一行都有一个对应的线程,如果每一行中的线程之间没有交互,如果多个线程同时访问和修改矩阵的单独行是否安全(或正确)?
jwplayer("myElement_0").onPlay(function(){ pausePlayers(1); alert('0 has started'); }); jwplayer("my
我在想。当我使用一个std::mutex _lock 并想依赖守卫来释放它时,我可以这样使用吗? class MyClass{ private: mutable std::mutex _loc
这种互斥模式是否像我认为的那样安全?如果是这样,你怎么调用它? lock (_lock) { if (_flag) return; else _flag = true; } try {
我有一个静态库 来访问数据库。它有一个函数 readMaximum()。 readMaximum() 从数据库中读取最大值。此函数是线程安全的(使用互斥量)。 但问题是: 有两个进程A.exe和B.e
我正在为互斥锁的逻辑而苦苦挣扎;我在这里检查 key 是否被拿走,如果没有,我们拿走它,完成后释放它;但是你能帮我看看我怎样才能有一个循环来检查 key 直到它可用吗? rdb.setnx(lockk
我正在使用 clp(fd) 编写 Prolog 程序并且我很难实现我想要的约束之一。 输出是一个整数列表(长度取决于程序另一部分的输入),其中有某些相互排斥的预定义数字对,每对中的一个数字必须在输出中
我正在尝试使用 mesos/marathon 实现一个 lizardfs 集群。为此,我创建了一些 docker 镜像。 我需要获取某种类型的 docker 容器(lizardfs-master),而
假设我有一个包含以下列的 MySQL 表: |variables|1. | 'a' |2. | 'a b' |3. | 'a b c' |4. | ... | How can
我在一个表单上有 7 个单选按钮 其中3个属于一个组,4个属于另一个组 我希望 RadioButtons 在组内互斥。 这可以通过将它们放在两个 GroupBox 中来实现, 有没有什么办法可以不把它
我正在尝试使文本输入和复选框相互排斥。 默认情况下,文本框应包含“0”,复选框应为 false。如果用户选中该复选框,则该文本框应被清空。如果用户在文本框中输入值,则应取消选中该复选框。任何时候都不应
我已经在代码的注释中写下了我的问题。 我正在尝试使用 pthreads 使我的代码并行。首先,我想通过多个线程并行地在内存中写入大量数据。写入数据后,我想通过相同的线程执行此数据。执行数据后,我想读取
这个问题在这里已经有了答案: 关闭 13 年前。 Possible Duplicate: Monitor vs Mutex in c# 你好, 在这个网站上,我发现来自不同人的不同答案令人困惑。仍然
我需要调用一个返回唯一 id 的函数, int getid() { static id=0; id++; return id; } 多个线程需要调用这个函数,我的问题是我不确定我需要在哪里锁定互斥量,
请引用来自 WWDC 的视频 https://developer.apple.com/videos/play/wwdc2015/226/演讲者展示了我们可以在两个相同类型的 NSopeation 实例
概述: 我有一个使用 CoreData 的 iOS 应用程序> 有一个名为Animal的实体 它有一组记录Lion、Tiger和Elephant 我想将只有一个记录标记为收藏。 具有相同方法的相似实体
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: DLL thread safety 你好 我正在 MS VS C++ express 中编写一个 DLL 文
我的应用程序被迫使用第 3 方模块,如果在同一台机器上同时启动两个实例,该模块将使 Windows 蓝屏。为了解决这个问题,我的 C# 应用程序有一个互斥量: static Mutex mutex =
我是 Go 的新手,我想实现一个自定义的互斥机制,每个应用程序用户一次可以执行一个 goroutine。为简化起见,将 U1 和 U2 视为应用程序用户以及 F1(userId)、F2(userId)
我需要将单选和多选的功能组合到一个控件中。具体来说,我有多种选择。第一个与其他的互斥。所以,如果我选择第一个,就需要取消选中所有其他的。如果选择了其中一个,则必须取消选中第一个(如果已选择)。其他选项
我是一名优秀的程序员,十分优秀!