r - 基于数据帧 R 中的组的条件聚合-6ren

r - 基于数据帧 R 中的组的条件聚合

转载作者：行者123 更新时间：2023-12-03 18:47:11

24

4

让

Data_Frame <- data.frame(Col1 = c("A1", "A1", "A1", "A2", "A2", "A2", "A3", "A3", "A3"),
    
                         Col2 = c("2011-03-11", "2014-08-21", "2016-01-17", "2017-06-30", "2018-07-11", "2018-11-28", "2019-09-04", "2020-02-29", "2020-07-12"),
                  
                         Col3 = c("2018-10-22", "2019-05-24", "2020-12-25", "2018-10-12", "2019-09-24", "2020-12-19", "2018-10-22", "2019-06-14", "2020-12-20"),
              
                         Col4 = c(4, 2, 2, 1, 4, 4, 4, 4, 4),
             
                         Col5 = c(7, 6, 3, 1, 3, 2, 5, 1, 2))

Data_Frame$Col2 <- as.Date(Data_Frame$Col2)
Data_Frame$Col3 <- as.Date(Data_Frame$Col3)
Data_Frame$Col1 <- as.factor(Data_Frame$Col1)

Data_Frame <- Data_Frame %>% group_by(Col1) %>% mutate(Col6 = lubridate::time_length(lubridate::interval(Col2, max(Col3)), "years"))

Data_Frame <- Data_Frame %>% group_by(Col1) %>% dplyr::mutate(Col7 = ifelse(Col6 <= 1, 1, ifelse(Col6 >1 & Col6 <=2, 2, ifelse(Col6 >2 & Col6 <=5, 5, ifelse(Col6 >5 & Col6 <=10, 10, 11)))))

Data_Frame <- as.data.frame(Data_Frame)

是其中 Col6 表示 Col2 和 Col3 之间的时间差的数据帧，其中 Col2 的元素从 Col1 中 A1 到 A3 各组中 Col3 中最大的日期元素减去，Col7 表示 Col6 中哪些元素 <=1，<=2， <=5 和 <=10。
不同条件生成的附加列存在问题。

Last1Col7 到 Last10Col7 的生成:

新列 Last1Col7 到 Last10Col7 基于 Col7 创建，并将 Col7 中的 A1 到 A3 分组，使得

Last1Col7 表示 Col7 中有多少个元素(行数)
<=每组1个，

Last2Col7 对应于行数 <=2 in
每组，

Last5Col7 对应于每行 <=5 的行数
组等等。

预期的结果是:

以下代码:

Data_Frame1 <- Data_Frame %>% group_by(Col1) %>% dplyr::mutate(Last1Col7 = nrow(Data_Frame[Data_Frame$Col7 <= 1, ]),
                                                               
                                                               Last2Col7 = nrow(Data_Frame[Data_Frame$Col7 <= 2, ]),
                                                               
                                                               Last5Col7 = nrow(Data_Frame[Data_Frame$Col7 <= 5, ]),
                                                               
                                                               Last10Col7 = nrow(Data_Frame[Data_Frame$Col7 <= 10, ]))

导致完全不同的结果:

Last1SumCol4Col7 到 Last10SumCol4Col7 的生成:

Last1SumCol4Col7 是 Col4 中条目的总和，对应 Col7 中的条目数(行数)<=1 在 Col1 中 A1 到 A3 的每组中，

Last2SumCol4Col7 是 Col4 中条目的总和，对应于 Col1 中 A1 到 A3 的每组中 Col7 中有多少条目(行数)<=2，

Last5SumCol4Col7 是 Col4 中条目的总和，对应于 Col7 中的条目数(行数)<=5 在 Col1 中的每组 A1 到 A3 中，

Last10SumCol4Col7 是Col4中条目的总和，对应Col7中每组A1到A3中有多少条目(行数)<=10

预期的结果是:

使用以下代码:

Data_Frame1 <- Data_Frame %>% group_by(Col1) %>% dplyr::mutate(Last1SumCol4Col7 = sum(Data_Frame[Data_Frame$Col7 <=1, ]$Col4),
                                                              
                                                              Last2SumCol4Col7 = sum(Data_Frame[Data_Frame$Col7 <=2, ]$Col4),
                                                              
                                                              Last5SumCol4Col7 = sum(Data_Frame[Data_Frame$Col7 <=5, ]$Col4),
                                                              
                                                              Last10SumCol4Col7 = sum(Data_Frame[Data_Frame$Col7 <=10, ]$Col4))

结果是:

从 Last1Col7 到 Last10Col7 和 Last1SumCol4Col7 到 Last10SumCol4Col7 的所有初始条目为零的列开始，然后使用上面的代码也无济于事。 1 和 3 下的代码从根本上出了什么问题？

最佳答案

我们可以使用 map循环比较中使用的值，然后按“Col1”分组，通过取 sum 在每个循环中创建两列'Col7' 小于或等于循环的值，以及 sum 'Col4' 的对应值，其中 'Col7' 小于或等于该值

library(purrr)
library(dplyr)
map_dfc(c(1, 2, 5, 10), ~ Data_Frame %>%
     group_by(Col1) %>% 
     transmute(!! sprintf("Last%dCol7", .x) := sum(Col7 <= .x),
               !! sprintf("Last%dSumCol4Col7", .x) := sum(Col4[Col7<= .x])) %>% 
     ungroup %>%
     select(-Col1)) %>% 
 bind_cols(Data_Frame, .)

-输出

#Col1       Col2       Col3 Col4 Col5      Col6 Col7 Last1Col7 Last1SumCol4Col7 Last2Col7 Last2SumCol4Col7 Last5Col7 Last5SumCol4Col7 Last10Col7
#1   A1 2011-03-11 2018-10-22    4    7 9.7917808   10         0                0         0                0         1                2          3
#2   A1 2014-08-21 2019-05-24    2    6 6.3452055   10         0                0         0                0         1                2          3
#3   A1 2016-01-17 2020-12-25    2    3 4.9371585    5         0                0         0                0         1                2          3
#4   A2 2017-06-30 2018-10-12    1    1 3.4712329    5         0                0         0                0         3                9          3
#5   A2 2018-07-11 2019-09-24    4    3 2.4410959    5         0                0         0                0         3                9          3
#6   A2 2018-11-28 2020-12-19    4    2 2.0575342    5         0                0         0                0         3                9          3
#7   A3 2019-09-04 2018-10-22    4    5 1.2931507    2         2                8         3               12         3               12          3
#8   A3 2020-02-29 2019-06-14    4    1 0.8060109    1         2                8         3               12         3               12          3
#9   A3 2020-07-12 2020-12-20    4    2 0.4410959    1         2                8         3               12         3               12          3
#  Last10SumCol4Col7
#1                 8
#2                 8
#3                 8
#4                 9
#5                 9
#6                 9
#7                12
#8                12
#9                12

OP 代码中的问题给出错误 sum是因为 Data_Frame[Data_Frame$Col7 <=2, ]正在破坏组并获取整个列子集而不是组内的子集。内 tidyverse ，我们不需要 Data_Frame$ ，如果我们需要指定数据，使用 .或 cur_data() .另外，这里我们只需要 Col7 <=2

关于r - 基于数据帧 R 中的组的条件聚合，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67764294/

24

4

0

文章推荐： python - 根据是否在列表中过滤python数据表的行

文章推荐： python - 如何使这个循环更快？

文章推荐： while-loop - Raku，Perl 的 5 `<>` 在哪里？

mySQL IF 条件 THEN 条件
我正在努力处理查询的 WHERE 部分。查询本身包含一个基于两个表中都存在的 ID 的 LEFT JOIN。但是，我要求 where 语句仅返回其中一列中存在的最大单个结果。目前我返回连接中的所有值，
python - 我的代码有一个 if-else 条件，但我认为代码没有检查 if 条件，而是直接进入 else 条件
我有这个代码来改变文件系统的大小。问题是，即使满足 if 条件，它也不会进入 if 条件，而我根本没有检查 if 条件。它直接进入 else 条件。运行代码后的结果 post-install-ray
excel - SUMIF(条件，值)、SUMPROD(条件，值)和 SUM(条件*值)之间的区别
假设我有一个包含 2 列的 Excel 表格:单元格 A1 到 A10 中的日期和 B1 到 B10 中的值。我想对五月日期的所有值求和。我有3种可能性: {=SUM((MONTH(A1:A10)=
LINQ:选择 <条件> 或 <条件>
伪代码: SELECT * FROM 'table' WHERE ('date' row.date 或，我们在Stack Overflow上找到一个类似的问题： https://stackove
mysql - Yii 条件 - 修改以包含 OR 条件
我有下面这行代码做一个简单的查询 if ($this->fulfilled) $criteria->addCondition('fulfilled ' . (($this->fulfilled
PHP 条件 vs MySQL 条件
如果在数据库中找到用户输入的键，我将尝试显示“表”中的数据。目前我已将其设置为让数据库检查 key 是否存在，如下所示: //Select all from table if a key entry
我们是否可以通过改变 if 条件，在执行完 else 条件后返回执行 if 条件？
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 5 年前。 Improve th
mysql - 是否可以先加入 if 条件，然后再加入 Else 条件
在MYSQL中可以吗一共有三个表任务(task_id、task_status、...) tasks_assigned_to(ta_id、task_id、user_id) task_suggeste
mysql - 首先按(条件)排序，然后按(条件)排序
我想先根据用户的状态然后根据用户名来排序我的 sql 请求。该状态由 user_type 列设置: 1=活跃，2=不活跃，3=创始人。我会使用此请求来执行此操作，但它不起作用，因为我想在“活跃”成员
c# - 嵌套的 if 条件 vs 多个分离的 if 条件，每个条件都有 return 语句
下面两个函数中最专业的代码风格是什么？如果函数变得更复杂和更大，例如有 20 个检查怎么办？注意:每次检查后我都需要做一些事情，所以我不能将所有内容连接到一个 if 语句中，例如: if (veh
sql-server - OrderBy().FirstOrDefault(<条件>) 与Where(<条件>).OrderBy().FirstOrDefault()
我在 C# 项目中使用 EntityFramework 6.1.3 和 SQL Server。我有两个查询，基本上应该执行相同的操作。 1. Exams.GroupBy(x=>x.SubjectID)
postgresql - CASE WHEN 条件 1 AND 条件 2 then x else y postgreSQL
我试图在 case when 语句中放入两个条件，但我在 postgresql 中遇到语法错误 case when condition 1 and condition 2 then X else Y
php - 在 LEFT JOIN table1 ON 条件 1 OR 条件 2 中使用 OR 会导致不必要的问题吗？
我正在构建一个连接多个表的查询，一个表 prodRecipe 将包含某些行的数据，但不是全部，但是 tmp_inv1 将包含所有行的计数信息。问题是，tmp_inv1.count 取决于某个项目是否在
SQL INDEX 不用于 WHERE ABS(x-y) < k 条件，但用于 y - k < x < y + k 条件
我有一个涉及 couples of rows which have a less-than-2-hours time-difference 的查询(~0.08333 天): SELECT mt1.*,
Perl OR 条件
我有一个包含许多这样的 OR 条件的代码(工作正常)来检查其中一个值是否为空，然后我们抛出一条错误消息(所有这些都必须填写) } elsif ( !$params{'account'}
SQL 条件 where
我有一个名为 spGetOrders 的存储过程，它接受一些参数:@startdate 和 @enddate。这将查询“订单”表。表中的一列称为“ClosedDate”。如果订单尚未关闭，则此列将保留
LINQ - if 条件
在代码中，注释部分是我需要解决的问题...有没有办法在 LINQ 中编写这样的查询？我需要这个，因为我需要根据状态进行排序。 var result = ( from contact in d
SQL:条件 AND in where
我正在尝试创建一个允许省略参数的存储过程，但如果提供了参数，则进行 AND 操作: CREATE PROCEDURE MyProcedure @LastName Varchar(30)
正则表达式 IF 条件
我正在寻找一种方法来过滤我的主机文件中的新 IP 地址。我创建了一个脚本，每次我用来自矩阵企业管理器的数据调用它时都会更新我的主机文件。它工作正常。但是我必须找到一个解决方案，只允许更新 10.XX.
jQuery 条件
所以我正在做一种 slider ，当它完全向下时隐藏向下按钮，反之亦然，当向上按钮隐藏时，我遇到了问题。 var amount = $('slide').attr('number'); $('span

首页

博学

6Ren·AI

商城

r - 基于数据帧 R 中的组的条件聚合