r - 使用 dplyr 汇总多列 - 分类版本-6ren

r - 使用 dplyr 汇总多列 - 分类版本

转载作者：行者123 更新时间：2023-12-04 12:49:14

28

4

正在关注 this question和 this one ，我想知道在一个数据集中总结分类变量的最佳选择是什么。

我有一个数据集，例如

# A tibble: 10 <U+00D7> 4
    empstat_couple     nssec7_couple3  nchild07 age_couple
              <chr>             <fctr>    <fctr>      <dbl>
1         Neo-Trad   Lower Managerial    1child         39
2         Neo-Trad  Higher Managerial    1child         31
3         Neo-Trad Manual and Routine    1child         33
4             Trad  Higher Managerial    1child         43

前 3 个变量是分类(字符或因子)，最后一个是数值变量。

我想要的是(输出)

                  var n   p
1:           Neo-Trad 6 0.6
2:    OtherArrangment 2 0.2
3:               Trad 2 0.2
4:  Higher Managerial 4 0.4
5:   Lower Managerial 5 0.5
6: Manual and Routine 1 0.1
7:             1child 9 0.9
8:          2children 1 0.1

那么对于数值变量，我不确定如何将它有意义地添加到摘要中。

我想最基本的方法是

library(dplyr) 
library(data.table) 

a = count(dt, empstat_couple) %>% mutate(p = n / sum(n))
b = count(dt, nssec7_couple3) %>% mutate(p = n / sum(n))
c = count(dt, nchild07) %>% mutate(p = n / sum(n))

rbindlist(list(a,b,c))

我想知道是否存在 summarise_each 解决方案？

这行不通

dt %>% summarise_each(funs(count))

使用 apply 我可以想出这个

apply(dt, 2, as.data.frame(table)) %>% rbindlist()

但效果不是很好。

有什么建议吗？

数据

dt = structure(list(empstat_couple = c("Neo-Trad", "Neo-Trad", "Neo-Trad", 
"Trad", "OtherArrangment", "Neo-Trad", "Trad", "OtherArrangment", 
"Neo-Trad", "Neo-Trad"), nssec7_couple3 = structure(c(2L, 1L, 
4L, 1L, 2L, 2L, 1L, 2L, 1L, 2L), .Label = c("Higher Managerial", 
"Lower Managerial", "Intermediate", "Manual and Routine"), class = "factor"), 
nchild07 = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 
1L), .Label = c("1child", "2children", ">2children"), class = "factor"), 
age_couple = c(39, 31, 33, 43, 32, 28, 28, 40, 33, 26), hldid = 1:10), .Names = c("empstat_couple", 
"nssec7_couple3", "nchild07", "age_couple", "hldid"), row.names = c(NA, 
-10L), class = "data.frame")

最佳答案

我们可以用data.tablemelt得到.N和比例

library(data.table)
unique(melt(setDT(dt), id.var = "age_couple")[,  n := .N , value], 
       by = c("variable", "value", "n"))[,  p := n/sum(n), variable 
        ][, c("age_couple", "variable" ) := NULL][]

或者使用dplyr/tidyr

library(dplyr)
library(tidyr)
gather(dt, var1, var, -age_couple) %>%
           group_by(var) %>%
           mutate(n = n()) %>%
           select(-age_couple) %>%
           unique() %>% 
           group_by(var1) %>%
           mutate(p= n/sum(n)) %>%
           ungroup() %>%
           select(-var1)

关于r - 使用 dplyr 汇总多列 - 分类版本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41460866/

28

4

0

文章推荐： json - Delphi将StringGrid中的数据保存到Json文件中

文章推荐： libvirt - virsh - pool-define-as 和 pool-create-as 之间的区别

文章推荐： Cassandra 节点工具退役

hadoop - 无法使用 Hive 版本 1.1.0 HBase 版本 0.94.8 和 hadoop 版本 2.7.0 从配置单元创建 Hbase 表
无法使用 Hive 版本 1.1.0 HBase 版本 0.94.8 和 hadoop 版本 2.7.0 从 hive 创建 Hbase 表 hive (default)> CREATE TABLE
electron - 无法确定 Electron 版本。请指定一个 Electron 版本
我试图为 electron app 创建可执行文件但面临这个问题 Unable to determine Electron version. Please specify an Electron ve
python - OpenCV 中的自适应阈值(版本 1 - swig 版本)
我正在尝试让自适应阈值在 python 绑定(bind)到 opencv 中工作(swig 一个 - 无法让 opencv 2.0 工作，因为我正在使用 beagleboard 因为交叉编译还没有工作
windows - JMeter 命令行 - linux 版本 vs windows 版本
我一直在 linux 机器上使用 JMeter，在命令行下使用了一段时间。工作正常。今天，我在 Windows 机器(新客户端等)上尝试了它，它确实可以工作，但在控制台窗口中输出有很大不同。 Lin
java - 确定程序与哪个 Java 版本(或 Eclipse 版本)兼容
在我的编码环境中，我通常使用最新版本的 Java 和 Eclipse。当我编写源代码时，我不会注意我使用的 API 方法或类是否向后兼容旧版本的 Java 或 Eclipse。在 javadoc 中存
gcc - CUDA 版本 X 提示不支持 gcc 版本 Y - 该怎么办？
问题是关于版本的特定组合，但更普遍。我刚刚从 Kubuntu 12.04 升级到 14.04。现在，当我想编译 CUDA 代码(使用 CUDA 6.5)时，我得到: #error -- unsupp
macos - 如果系统上存在 Mac App Store 版本，则解锁应用程序的开发人员 ID 版本
我目前正在对我的一些应用程序进行沙箱处理，看来我必须删除一些功能才能满足 Mac App Store 沙箱(和其他)规则。显然用户不会因为失去功能而感到高兴，我担心他们不会指责苹果制定了愚蠢的规则，
javascript - 为特定的 ie 版本提供 flash 版本，否则提供 js 版本
我用 flash 和 js 版本创建了一个动画横幅。是否可以检测低于版本 9 的 ie 版本，然后提供 Flash 横幅，否则提供 js 横幅。最佳答案您可以使用条件注释来检测 IE 版本
firebird - 使用 SQL 确定 Firebird 版本(版本 < 2.1)
我有一个处理不同位置的数据库的应用程序，我想检查这些数据库是否使用 Firebird 2.5 或更高版本打开。我们最近从 Firebird 2.0 迁移到了 2.5，我们有很多数据库可以响应 sele
Java 版本，Tomcat，不支持 major.minor 版本 52.0
我正在开发一个应用程序，我使用托管在我的服务器上的 Java 和 Jersey 构建了后端部分。我在服务器上使用 Tomcat7 来调用 Web 服务。我以前有一台安装了 Ubuntu 的计算机，我
c - 如何通过名称获取 Windows 版本(对于 future 的 Windows 版本)？
我可以使用 GetVersionEx() 函数来获取 Windows 版本，但是这个函数将返回一个数字而不是一个字符串。但是没有问题，因为我可以将数字转换为字符串，例如: if (osvi.dwMaj
python - 如果我安装了 2 个 python 版本，如何在命令提示符下更改 python 版本
我已经在我的系统中安装了 Anaconda 2 & 3。 Anaconda 2 包含 python 2.7 & Anaconda 3 包含 python 3.6。我需要使用命令提示符运行我的 pyt
Android Studio Gradle 版本 - 需要 Gradle 版本 2.8
我正在尝试构建一个 Android 项目，但发生了以下错误 Error:(10, 1) A problem occurred evaluating project ':app'. > Failed t
javascript - jQuery 版本 1、版本 2 和版本 3 之间有什么区别？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu
c++ - CMake:不支持的 GNU 版本 -- 不支持高于 8 的 gcc 版本
在降级我的 GCC 之前，我想知道是否有办法确定我的机器中的哪些程序/框架或依赖项会中断，以及是否有更好的方法来执行 openpose 安装？ (例如，在 CMake 中更改某些内容) 有没有办法在不
qt - 无法将不兼容的 Qt 库(版本 0x50501)与此库(版本 0x50201)混合使用
我已经在终端的代码sudo apt-get install Shadowsocks-qt5中安装了Shadowsocks-Qt5，然后我可以通过搜索找到启动图标，但是它当我点击图标时打不开。然后我尝试
hl7 - 我们可以将 MLLP 版本 2 与 HL7 版本 2 一起使用吗？
在网络上找到的文档说，MLLP V2(第 2 版)是用于传输 HL7 版本 3 内容的所有消息传输协议(protocol)的要求。似乎 MLLP 第 2 版主要用于 HL7 第 3 版。我们可以/应
javascript - Protractor:chromeDriver 版本 78 抛出错误，仅支持 chrome 版本 79
我正在使用带有 selinium webdriver 的 Protractor 。我的chromeDriver版本是78.0.1，chrome版本是78.0.3904.97。两个版本都匹配，应该不会有
java - Eclipse 版本 : Mars. 1 版本 (4.5.1) 中缺少数据源资源管理器选项卡
我正在按照教程设置 mysql 数据库并做一些事情。我无法找到数据库资源管理器。我读了很多，但在 Window->show View-> Dataxxx 或右侧上部选项卡中无法正常工作。最佳答案从
python - 无法将不兼容的 Qt 库(版本 0x40801)与该库(版本 0x40805)混合使用
我已经在 KDE 桌面上安装了 Anaconda 2.0.1。当我运行 python 并看到所有已安装的模块时，我收到此消息“无法将不兼容的 Qt 库(版本 0x40801)与该库(版本 0x4080

首页

博学

6Ren·AI

商城

r - 使用 dplyr 汇总多列 - 分类版本