r - 在 RStudio 中按条件分组-6ren

r - 在 RStudio 中按条件分组

转载作者：行者123 更新时间：2023-12-04 10:22:00

26

4

大家早上好，我有一个包含多个变量的 csv 文件(df2.csv)，如下图所示(仅作为示例):

CLASSE  Variables   Terms   Number    
1       DAT_1    20160701q   5    
1       DAT_1    20160802q   2    
1       DAT_1    20160901q   1    
1       DAT_2    20161001q   1    
1       DAT_2    20161201q   2    
1       DAT_2    20170301q   3    
2       DAT_1    20161001q   1    
2       DAT_1    20161201q   2    
2       DAT_1    20170301q   1

我希望对于每个类(在这种情况下为 1 或 2)，对于每个不同的日期变量，如果个体数小于 3，则将个体与下一个日期分组。如果我有超过 3 个人的时期，在这种情况下，我想要一个像“20160701q-20160901q”这样的日期，而不是分别使用 20160701q 和 20160901q。在这种情况下，我们将两个或更多日期分组以获得超过 3 个人的时间段，如果类(class)的下一个日期少于 3 个人，我们也会将此日期与之前的时间段分组。
我从这段代码开始

for (n in df2$CLASSE){
  for (k in df2$Variables){
    for (i in 1:nrow(df2)){
      if (df2$Number[i]<3){
        rempl_date=paste(df2$Terms[i],df2$Terms[i+1], sep="-")
        df2$Terms[i]<-rempl_date
        next  
      }
    }
  }
}

但它不起作用，我想在分组后拥有这个:

CLASSE  Variables   Terms              Number
1       DAT_1    20160701q               5
1       DAT_1    20160802q-20160901q     3
1       DAT_2    20161001q-20161201q     3
1       DAT_2    20170301q               3
2       DAT_1    20161001q-20170301q     4

如果你能帮助我，我不知道我必须改变什么，我希望我很清楚。提前致谢

最佳答案

这是一个基本的R解决方案:

定义用于分组的自定义函数

f <- function(v, th = 3) {
  k <- 1
  r <- c()
  repeat {
    if (length(v)==0) break
    ind<-seq(head(which(cumsum(v)>=th),1))
    if (sum(v)<2*th) {
      r <- c(r,rep(k,length(v)))
      v <- c()
    } else {
      r <- c(r,rep(k,length(ind)))
      v <- v[-ind]
    }
    k <- k+1
  }
  r
}

然后使用 aggregate + ave


dfout <- subset(aggregate(Terms~.,
                          within(within(df,grp <- ave(Number,Classe, Variables, FUN = f)),
                                 Number <- ave(Number,Classe,Variables,grp,FUN = sum)),
                          c),
                select = -grp)

格式化 dfout使用 order 到所需的样式

dfout <- dfout[order(dfout$Classe,dfout$Variables),]

输出

> dfout
  Classe Variables Number                           Terms
3      1     DAT_1      5                       20160701q
4      1     DAT_1      3            20160802q, 20160901q
1      1     DAT_2      3            20161001q, 20161201q
5      1     DAT_2      3                       20170301q
2      2     DAT_1      4 20161001q, 20161201q, 20170301q

数据

df <- structure(list(Classe = c(1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L), 
    Variables = c("DAT_1", "DAT_1", "DAT_1", "DAT_2", "DAT_2", 
    "DAT_2", "DAT_1", "DAT_1", "DAT_1"), Terms = c("20160701q", 
    "20160802q", "20160901q", "20161001q", "20161201q", "20170301q", 
    "20161001q", "20161201q", "20170301q"), Number = c(5L, 2L, 
    1L, 1L, 2L, 3L, 1L, 2L, 1L)), class = "data.frame", row.names = c(NA, 
-9L))

更新
如果要连接 Terms中的内容，试试下面的代码

dfout <- subset(aggregate(Terms~.,
                          within(within(df,grp <- ave(Number,Classe, Variables, FUN = f)),
                                 Number <- ave(Number,Classe,Variables,grp,FUN = sum)),
                          FUN = function(v) ifelse(length(v)==1,v,paste0(c(v[1],v[length(v)]),collapse = "-"))),
                select = -grp)

dfout <- dfout[order(dfout$Classe,dfout$Variables),]

以至于

> dfout
  Classe Variables Number               Terms
3      1     DAT_1      5           20160701q
4      1     DAT_1      3 20160802q-20160901q
1      1     DAT_2      3 20161001q-20161201q
5      1     DAT_2      3           20170301q
2      2     DAT_1      4 20161001q-20170301q

关于r - 在 RStudio 中按条件分组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60811076/

26

4

0

文章推荐： c# - 整数哈希函数在几次迭代后发生冲突

文章推荐： r - 电缆表 R : diagonal cells in bold

rstudio - 计算搜索字数 - rstudio
在使用 rstudio 中的“查找/替换”功能进行搜索时，如何(如果可能)在我的 Rscript 中计算搜索的总出现次数？例如，假设我有以下脚本: a <- c(1,2,3) print(a) pr
rstudio - RStudio 中的永久代码折叠
我试图确保在保存文件时，Shiny 中 RStudio 中的代码折叠(通过 Alt+L)保持原位。目前，每次保存文件时，折叠都会消失。有人知道如何使折叠永久且独立于保存文件吗？供引用:我在 Wind
rstudio - RStudio 中的颜色编码注释
我是一个非常注重视觉的人，希望区分#我注释掉的命令和##给我自己或同事的文件消息。我查看了 RStudio 是否支持不同类型的注释，但似乎不支持。有谁知道解决这个问题的方法吗？谢谢! 最佳答案你可
rstudio - 环境变量和 RStudio
我正在使用 RStudio，并一直在尝试使用 rPython 包来为我处理一些电子邮件。这涉及到解压一些电子邮件附件，因此我需要使用比 2.7 更新的 Python 版本。我在 ubuntu 上，所
rstudio - 如何在 RStudio 编辑器中更改字母大小写？
我刚读了Google's R Style Guide , 并决定与函数名和变量中的字母大小写一致。如何在 RStudio 的编辑器中更改字母大小写？具体来说，如何换词全部小写全部大写大写的大小写
rstudio - 禁用 RStudio 中的所有断点
有没有办法禁用 RStudio 中的所有断点？我查看了 RStudio 文档并进行了谷歌搜索，但找不到方法。最佳答案我也很好奇，特别想对断点有个大概的了解。我跑了grep在我的项目文件夹中，这就
rstudio - 在 Rstudio 中更改背景颜色
是否可以在 Rstudio 中更改背景颜色？我知道可以更改编辑器的主题，这是一个非常好的功能并且我已经在使用，但是是否可以更改其他窗口(环境、历史、文件等)的背景颜色... ) 到白色以外的其他东西，
rstudio - 在包开发期间在 RStudio 中设置断点
我正在 RStudio 中开发一个包，并想使用断点来调试我的函数。但是，我一直遇到同样的问题:我设置了一个断点，RStudio 警告我必须构建并重新加载包才能激活断点(即使我刚刚构建并重新加载了包)，
rstudio - 每次启动 Desktop Rstudio 时，都会收到错误消息 :rstudio error yaml. load readlin con errorlevel errorlevel
登录Desktop Rstudio后，会出现以下消息: Error in yaml.load(readLines(con), error.label = error.label, ...) : o
rstudio - 如何在 Spyder & RStudio 中永久设置工作目录？
我已经开始学习 - Windows 操作系统上的机器学习类(class)。每当我启动 Spyder 3.2.4(Python 3.6) & RStudio(1.1.383) 的新实例时，每次我都需要在
fonts - rstudio 如何在 RStudio 中启用字体连字？
我看了Fira Code我想使用列出的受支持编辑器之一进行尝试。所以我启动了 RStudio(Win 盒上的 0.99.491 版)并将字体设置为 Fira Code 但......没有。那么如何在
rstudio - 在 RStudio 中使用突出显示和中键进行复制/粘贴
在 linux 中，我经常用鼠标突出显示文本进行复制，然后在其他地方单击鼠标中键进行粘贴。在 RStudio 中，这不起作用，强制使用 Ctrl+C 和 Ctrl+V 或右键单击菜单。我经常想在控制台
rstudio - 在 Rstudio 中更改帮助选项卡/文档的字体大小
有没有办法改变 help 中显示的文本的字体大小？ Rstudio 的选项卡? 我知道可以在所有面板中更改字体大小 Tools > Global > Options > Appearance ，但它不
rstudio - 更改主题 rstudio 1.2 中的功能颜色
我下载了最新版本的 Rstudio 以便能够自定义主题。我按照这个教程安装了 Pandas 主题: https://towardsdatascience.com/customize-your-rst
rstudio - 在 RStudio 中编织默认 RMarkdown 文件时出错
我使用的是 RStudio 版本 1.1.456，它运行的是 R 版本 3.5.1。我在 64 位 Windows 7 Enterprise 上运行。我刚开始使用 R Markdown，所以当我在
rstudio - 使用 Rstudio 实时预览 Rmarkdown 文档
我一直使用 VScode 作为记笔记的主要 Markdown 平台，并且我已经习惯了实时预览功能。现在我必须使用 Rmarkdown 生成可更新的报告，我想知道是否有人知道如何使用 Rstudio
rstudio - 如何在 RStudio 帮助 Pane 中增加字体大小？
我戴老花眼镜，可以阅读所有其他 Pane ，但经常不得不打开 R 寻求帮助，因为它的字体较大，虽然我觉得不方便。我在 support.rstudio.com 中没有找到任何答案；其他人在 2014
rstudio - 生成 ssl 证书并配置 RStudio 服务器？
实际上我需要使用 https 运行 rstudio 服务器。默认为http://server-ip:8787 我正在关注这个文件-(ssl-配置) https://s3.amazonaws.com/
rstudio - Anaconda/Rstudio 在 mac 视网膜屏幕上以低分辨率显示
Anaconda 4.3.1 中包含的 Rstudio 安装在我的视网膜屏幕 macbook 上以低分辨率显示。其他 anaconda 应用程序，以及独立版本的 Rstudio 看起来都不错。关于
rstudio - 是否有用于将焦点移动到 RStudio 控制台的 R 代码？
在我的代码完成执行后，我不断地在 RStudio 的编辑窗口中输入，当时我的目的是在控制台窗口中提供一些输入。是否有可以执行的 R 代码可以自动将焦点移动到 RStudio 的控制台窗口？最佳答案

首页

博学

6Ren·AI

商城

r - 在 RStudio 中按条件分组