r - 在dplyr::group_by()之后的组内进行diff操作-6ren

r - 在dplyr::group_by()之后的组内进行diff操作

转载作者：行者123 更新时间：2023-12-03 23:20:52

30

4

假设我有这个data.frame（带有3个变量）

ID  Period  Score
123 2013    146
123 2014    133
23  2013    150
456 2013    205
456 2014    219
456 2015    140
78  2012    192
78  2013    199
78  2014    133
78  2015    170

使用dplyr，我可以按ID对它们进行分组并过滤出现多次的ID

data <- data %>% group_by(ID) %>% filter(n() > 1)

现在，我想要实现的是添加一列：
差异=期间P的分数-期间P-1的分数
得到这样的事情：

ID  Period  Score   Difference
123 2013    146 
123 2014    133 -13
456 2013    205 
456 2014    219 14
456 2015    140 -79
78  2012    192 
78  2013    199 7
78  2014    133 -66
78  2015    170 37

在电子表格中执行此操作相当简单，但是我不知道如何在R中实现此功能。
感谢您的帮助或指导。

最佳答案

这是使用lag的另一种解决方案。根据使用情况，它可能比diff更方便，因为NAs清楚地表明特定值不具有前任，而使用0的diff可能是a）缺少前任或b）两个周期之间的减法。

data %>% group_by(ID) %>% filter(n() > 1) %>%
  mutate(
    Difference = Score - lag(Score)
    )

#   ID Period Score Difference
# 1 123   2013   146         NA
# 2 123   2014   133        -13
# 3 456   2013   205         NA
# 4 456   2014   219         14
# 5 456   2015   140        -79
# 6  78   2012   192         NA
# 7  78   2013   199          7
# 8  78   2014   133        -66
# 9  78   2015   170         37

关于r - 在dplyr::group_by()之后的组内进行diff操作，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28045910/

30

4

0

文章推荐： amazon-web-services - 仅允许通过 ELB 对 AWS 实例进行 HTTP 访问

文章推荐： julia - 在 Julia 中索引数组时避免内存分配

文章推荐： spring-cloud - 多条 Zuul 路由到一项服务

r - dplyr::rename_all & dplyr::if_else
我有以下数据框: library(dplyr) df % rename_all(funs(stringr::str_replace_all(., "gh", "v"))) 我想结合使用 renam
r - dplyr::rename_all & dplyr::if_else
我有以下数据框: library(dplyr) df % rename_all(funs(stringr::str_replace_all(., "gh", "v"))) 我想结合使用 renam
r - 使用 dplyr::across 执行 dplyr::select
我有一个数据( df_1 ): df_1 % select_at(.vars = 'var_1') var_1 1 99.47262 10 25.91552 没关系。但: df_1
r - 库(dplyr): there is no package called ‘dplyr’ 中的错误
我正在尝试安装dplyr软件包，但收到一条错误消息，提示“库(dplyr)中存在错误:没有名为dplyr的软件包”。我正在使用窗口系统和Ri386 3.5.2。我尝试按照其他人的建议使用代码insta
R、dplyr 和雪 : how to parallelize functions which use dplyr
假设我想以并行方式申请 myfunction到 myDataFrame 的每一行.假设 otherDataFrame是一个包含两列的数据框:COLUNM1_odf和 COLUMN2_odf出于某些原因
r - 从 dplyr 使用 %>% 运算符而不在 R 中加载 dplyr
我目前正在构建一个包，我想知道是否有办法调用 %>%来自 dplyr 的操作符，而无需实际附加 dplyr 包。例如，对于从包中导出的任何函数，您可以使用双冒号 ( :: ) 调用它。所以如果我想使用
r - 如何使用 dplyr 内的函数或表达式对 dplyr 内的公式调用创建的 t.test 模型的属性进行变异？
library(dplyr) mtcars %>% group_by(vs) %>% do(tt=t.test(mpg~am, data=.)) %>% mutate(t=tt$statist
r - 尝试使用 dplyr::do 在内部构建模型，然后在同一个 dplyr::do 调用中拉取 coef(model)
我正在尝试为一组标准曲线构建一系列线性模型。目前这段代码正在产生我想要的输出(每个线性模型的截距和斜率): slopes % group_by(plate, col, row, conc_ug_mL
用 dplyr::group_split 和 purrr::map_df 替换 dplyr::do 函数
我正在寻找替换我的一些使用 dplyr::do 的 R 代码，因为这个函数很快就会被弃用。我的很多工作都需要创建分层 CDF 图。使用 dply:do 时，我分层的变量作为变量传递给结果数据框，然后我
r - 在 `dplyr::case_when()` 的上下文中使用 `dplyr::mutate()` 中的复杂 RHS 表达式
问题我正在尝试使用 dplyr::mutate()和 dplyr::case_when()在数据框中创建新的数据列，该列使用存储在另一个对象(“查找列表”)中的数据填充，并基于数据框中列中的信息。
r - 无法在 dplyr.spark.hive 包中创建由 SparkSQL 支持的 dplyr src
最近我发现了很棒的 dplyr.spark.hive启用 dplyr 的软件包前端操作 spark或 hive后端。在包的 README 中有关于如何安装此包的信息: options(repos =
r - 你能在 dplyr 链中使用 data.frame 两次吗？ dplyr 说 "Error: cannot handle "
我正在尝试在 dplyr 链中使用 data.frame 两次。这是一个给出错误的简单示例 df % group_by(Type) %>% summarize(X=n()) %>% mu
r - data.table 后端的 dplyr 错误 [在 dplyr 0.4.3 或更早版本中]
当我浏览答案时 here , 我找到了 this solution与 data.frame 完全符合预期. library(dplyr) # dplyr_0.4.3 library(data.tab
使用通用名称对列重新排序 - dplyr
我的数据来自一个数据库，根据我运行 SQL 查询的时间，该数据库可能包含一周到另一周不同的 POS 值。不知道哪些值将在变量中使得自动创建报告变得非常困难。我的数据如下所示: sample % p
dplyr 中的回归输出
我想定义与“扫帚”包中类似的功能 library(dplyr) library(broom) mtcars %>% group_by(am) %>% do(model = lm(mpg ~ w
dplyr 中的滚动总和
set.seed(123) df % group_by(id) %>% mutate(roll.sum = c(x[1:4], zoo::rollapply(x, 5, sum))) # Groups
dplyr 中带条件的递归函数
先来个样本数据 set.seed(123) dat 1 -4 2 6 3 -2 4
按组排序变量 (dplyr)
我有一个带列的数据框 x1, x2, group我想生成一个带有额外列的新数据框 rank表示x1的顺序在其组中。有相关问题here ，但已接受的答案似乎不再有效。到这里为止，很好: librar
dplyr 中的排名函数
我有一个示例 df，如下所示: d% group_by(CaseNo) %>% arrange(desc(Submissiondate)) %>% dplyr::mutate(rank = row_n
用最常见的值替换数据输入错误 - dplyr
我有一个数据框，其中包含一些数据输入错误。我希望将每组的这些异常值替换为每组最常见的值。我的数据如下: df % group_by(CODE) %>% mutate(across(c(DOSAGE

首页

博学

6Ren·AI

商城

r - 在dplyr::group_by()之后的组内进行diff操作