r - 如何有效地确定每行中的变量值与R中data.table中相同变量后续行值之间的最大差异-6ren

r - 如何有效地确定每行中的变量值与R中data.table中相同变量后续行值之间的最大差异

转载作者：塔克拉玛干更新时间：2023-11-03 03:12:59

24

4

在 R 中的 data.table 中确定每行的值 (X) 与组 (Y) 内同一变量 (X) 的后续值之间的最大正差的最有效方法是什么。

例子:

set.seed(1)
dt <- data.table(X = sample(100:200, 500455, replace = TRUE),
                 Y = unlist(sapply(10:1000, function(x) rep(x, x))))

这是我认为无效且缓慢的解决方案:

dt[, max_diff := vapply(1:.N, function(x) max(X[x:.N] - X[x]), numeric(1)), by = Y]
head(dt, 21)

      X  Y max_diff
 1: 126 10      69
 2: 137 10      58
 3: 157 10      38
 4: 191 10       4
 5: 120 10      75
 6: 190 10       5
 7: 195 10       0
 8: 166 10       0
 9: 163 10       0
10: 106 10       0
11: 120 11      80
12: 117 11      83
13: 169 11      31
14: 138 11      62
15: 177 11      23
16: 150 11      50
17: 172 11      28
18: 200 11       0
19: 138 11      56
20: 178 11      16
21: 194 11       0

是否可以建议有效(更快)的解决方案？

最佳答案

这是一个 dplyr 解决方案，它的速度提高了大约 20 倍，并且得到了相同的结果。我认为等效的 data.table 会更快。 (编辑:见底部 - 是!)

加速来自减少需要执行的比较次数。最大的差异总是会在组中最大的剩余数字中找到，因此首先识别该数字并且每行只做一个减法会更快。

首先，原始解决方案在我的机器上大约需要 4 秒:

tictoc::tic("OP data.table") 
dt[, max_diff := vapply(1:.N, function(x) max(X[x:.N] - X[x]), numeric(1)), by = Y]
tictoc::toc()
# OP data.table: 4.594 sec elapsed

但仅需 0.2 秒，我们就可以获取该 data.table，转换为数据框，添加 orig_row 行号，按 Y 分组，按 orig_row 反向排序，取X与X的累积最大值之差，解码，按原顺序重新排列:

library(dplyr)
tictoc::tic("dplyr") 
dt2 <- dt %>% 
  as_data_frame() %>%
  mutate(orig_row = row_number()) %>%

  group_by(Y) %>%
  arrange(-orig_row) %>%
  mutate(max_diff2 = cummax(X) - X) %>%
  ungroup() %>%
  arrange(orig_row)
tictoc::toc()
# dplyr: 0.166 sec elapsed

all.equal(dt2$max_diff, dt2$max_diff2)
#[1] TRUE

编辑:正如@david-arenburg 在评论中所建议的那样，这可以在 data.table 中用优雅的线条快速完成:

dt[.N:1, max_diff2 := cummax(X) - X, by = Y]

在我的电脑上，这比上面的 dplyr 解决方案快 2-4 倍。

关于r - 如何有效地确定每行中的变量值与R中data.table中相同变量后续行值之间的最大差异，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54271820/

24

4

0

文章推荐：找出正数范围内二进制表示中 1 的个数的算法

文章推荐： java - 计算具有相同属性值的对象

文章推荐： java - Gradle:如何通过gradle执行git pull？

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续
@ 。目录集成Flink 编程示例打包运行 CDC入湖概述
scala - 后续/嵌套模式匹配
当我通过多个模式匹配发送一个变量时，这样做的命名约定是什么？ val somethingBetweenOriginalAndResult = original match { case ...
AWK 整合文件(后续)
this post 的后续工作:(根据评论中的要求进行更新) 我从实际(伪装的)示例数据以及在该数据上运行脚本的结果开始。原始数据样本: 目录中前两个文件的标题和前两行。它们是相同的数据，这不是错误
scala - 后续/嵌套模式匹配
当我通过多个模式匹配发送一个变量时，这样做的命名约定是什么？ val somethingBetweenOriginalAndResult = original match { case ...
AWK 整合文件(后续)
this post 的后续工作:(根据评论中的要求进行更新) 我从实际(伪装的)示例数据以及在该数据上运行脚本的结果开始。原始数据样本: 目录中前两个文件的标题和前两行。它们是相同的数据，这不是错误
python - 如何按同一个月对这个字典列表进行分组？ (后续)
我just asked a very similar question here两个答案都有效。但是，当我在每个字典中有 > 2 个字典键时，第 3 个键的值始终为 0。例如: myList = [{
python - tkinter陷印框架入口(后续)
此问题是 Trapping Frame Entrance in tkinter 的后续问题其中@jasonharper 提供了非常有用的答案。在下面的代码中，我将入口绑定(bind)到 Canvas
c# - 后续 from 子句与查询延续
使用 subsequent from 子句和query continuation 有什么区别？后面的 from 子句是指使用 ...from...in...from...in...select 模式
数据库 - 数据版本控制(后续)
我的原题可以查到here ，为此我得到了一些很好的答案、idas 和提示。作为可行性和性能研究的一部分，我已经开始转换我的模式，以便使用这些想法对我的数据进行版本控制。在这样做的过程中，我想出了一些
java - 圆-圆碰撞预测(后续)
圆 A 沿 x 轴向右移动。圆 B 沿 y 轴向上移动。我想知道他们是否会发生碰撞。 (不是何时，只是如果。) 半径相同，恒速度不同。 This answer似乎解决了这个问题，我的问题最好应该是这个
javascript - 后续 AJAX 调用之间的最短时间
在需要定期轮询服务器的 AJAX 应用程序(如聊天应用程序)中，建议两次调用之间的最短时间是多少，以便尽快完成更新？什么时间被认为是服务器和客户端的 hogs？最佳答案这个问题的答案很大程度上取决
html - (后续)CSS 样式特定链接
这是 a previous question on Stack Overflow 的后续行动(参见引用链接)。考虑以下代码(来自 W3Schools): /* unvisited link */ a:
c# - 创建特定的动态视觉效果 - 带对象的房屋计划(后续)
昨天，我问了a question关于如何在 .NET 中动态呈现某些内容:具体来说，我询问了如何创建用于“绘图”/渲染的白色“ Canvas ”，使用什么框架等。但是，许多答案建议我问更具体的答案，所
JAVAC 错误 - 无法将类识别为静态(后续)
这是上一个问题的后续: Java compiler fails to recognise static inner class accepted answer给出了一个解决方法，如果找不到更好的解决方
python - 如何从文件中读取两行并在 for 循环中创建动态键，后续
这个问题跟在问题之后:How to read two lines from a file and create dynamics keys in a for-loop? 但是，问题的性质已经发展到我想
asp.net-mvc - 自定义授权属性(后续)
好的跟进 this thread ，这就是我想出的…… public class SharweAuthorizeAttribute : AuthorizeAttribute { private
java - 后续: nested loops and arrays
Using nested loops 我仍在努力实现上述问题中所述的相同目标。基本上我的代码现在看起来像这样: for(int ac = 0; ac < gravityObject.length; a
python - 将文本文件读入变量，后续 print() 返回转义字符？
一直在寻找这个没有结果。我有一个片段，我想将文本文件读入 python 中的变量中，以便稍后可以引用它(特别是杀死正在运行的进程)。文件生成如下: os.system('wmic process w
android - 是否可以跳转 Dialogflow 后续 Intent ？
我创建了 2 个自定义跟进 Intent ，对于这 2 个自定义跟进 Intent ，还有 3 个跟进 Intent 。一切安好。我从这 2 个阶段获取信息，然后显示结果。该过程大约是 2 个后续问题
linux - 对(第一个+后续)参数对进行操作
这个问题在这里已经有了答案: Iterate through parameters skipping the first (5 个答案) 关闭 5 年前。我有一个脚本，它的第一个参数是一个对象的标

首页

博学

6Ren·AI

商城

r - 如何有效地确定每行中的变量值与R中data.table中相同变量后续行值之间的最大差异