r - 满足条件时如何重复序列-6ren

r - 满足条件时如何重复序列

转载作者：行者123 更新时间：2023-12-04 18:21:40

我发现了这个问题的变体，我知道可以使用模数，但我很难把它们放在一起。

我有一系列按 ID 和秒数的观察结果。当 id 的累计秒数增量大于 5 秒时，我想重新开始计数。有人可以帮我在 dplyr 中回答这个问题吗？

原始文件

df <- data.frame(id = c(1,1,1,1,1,2,2,2,2,3,3,3,3), 
                 val = c(2,10,12,15,17,2,4,7,8,12,15,20,25))

df
   id val
1   1   2
2   1  10
3   1  12
4   1  15
5   1  17
6   2   2
7   2   4
8   2   7
9   2   8
10  3  12
11  3  15
12  3  20
13  3  25

期望的结果

finalResult
   id val reset
1   1   2     1
2   1  10     2
3   1  12     2
4   1  15     3
5   1  17     3
6   2   2     1
7   2   4     1
8   2   7     2
9   2   8     2
10  3  12     1
11  3  15     1
12  3  20     2
13  3  25     3

编辑

感谢昨天的回复，但我在给定的解决方案中遇到了一些问题。

在此数据集上，代码适用于某些实例。

sub.df <- structure(list(`ID` = c("1", 
                                                "1", "1", 
                                                "1", "1", 
                                                "1", "1", 
                                                "1", "1"
), dateFormat = structure(c(1479955726, 1479955726, 1483703713, 
                            1495190809, 1495190809, 1497265079, 1497265079, 1474023059, 1474023061
), class = c("POSIXct", "POSIXt"), tzone = "America/Chicago")), .Names = c("ID", 
                                                                           "dateFormat"), row.names = c(NA, -9L), class = c("tbl_df", "tbl", 
                                                                                                                            "data.frame"))

使用的解决方案:

jj <- sub.df %>% 
  group_by(`ID`) %>% 
  arrange(`ID`,`dateFormat`)%>%
  mutate(totalTimeInt = difftime(dateFormat,first(dateFormat),units = 'secs'))%>%
  mutate(totalTimeFormat   = as.numeric(totalTimeInt))%>%
  mutate(reset = cumsum(
    Reduce(
      function(x, y) 
        if (x + y >= 5) 0 
        else x + y, 

        diff(totalTimeFormat), init = 0, accumulate = TRUE
    ) == 0
  ))%>%
  mutate(reset_2 = cumsum(
    accumulate(
      diff(totalTimeFormat), 
      ~if (.x + .y >= 5) 0 else .x + .y, 
      .init = 0
    ) == 0
  ))

结果

# A tibble: 9 x 6
# Groups:   ID [1]
     ID          dateFormat  totalTimeInt totalTimeFormat reset reset_2
  <chr>              <dttm>        <time>           <dbl> <int>   <int>
1     1 2016-09-16 05:50:59        0 secs               0     1       1
2     1 2016-09-16 05:51:01        2 secs               2     1       1
3     1 2016-11-23 20:48:46  5932667 secs         5932667     2       2
4     1 2016-11-23 20:48:46  5932667 secs         5932667     3       3
5     1 2017-01-06 05:55:13  9680654 secs         9680654     4       4
6     1 2017-05-19 05:46:49 21167750 secs        21167750     5       5
7     1 2017-05-19 05:46:49 21167750 secs        21167750     6       6
8     1 2017-06-12 05:57:59 23242020 secs        23242020     7       7
9     1 2017-06-12 05:57:59 23242020 secs        23242020     8       8

发生的情况是，对于前两次观察，它正确地将其计为 1 个实例。当它到达第三次和第四次观察时，这应该只算作两次观察，因为这两个实例之间基本上没有时间过去。

正确的输出:

# A tibble: 9 x 6
# Groups:   ID [1]
     ID          dateFormat  totalTimeInt totalTimeFormat reset reset_2
  <chr>              <dttm>        <time>           <dbl> <int>   <int>
1     1 2016-09-16 05:50:59        0 secs               0     1       1
2     1 2016-09-16 05:51:01        2 secs               2     1       1
3     1 2016-11-23 20:48:46  5932667 secs         5932667     2       2
4     1 2016-11-23 20:48:46  5932667 secs         5932667     2       2
5     1 2017-01-06 05:55:13  9680654 secs         9680654     3       3
6     1 2017-05-19 05:46:49 21167750 secs        21167750     4       4
7     1 2017-05-19 05:46:49 21167750 secs        21167750     4       4
8     1 2017-06-12 05:57:59 23242020 secs        23242020     5       5
9     1 2017-06-12 05:57:59 23242020 secs        23242020     5       5

最佳答案

如果您使用 Reduce与 accumulate = TRUE (或 purrr::accumulate ，如果您愿意)，您可以在大于或等于 5 时重置运行差异。调用 cumsum关于该总数是否为 0 将返回重置次数。

library(tidyverse)

df <- data.frame(id = c(1,1,1,1,1,2,2,2,2,3,3,3,3), 
                 val = c(2,10,12,15,17,2,4,7,8,12,15,20,25))

df %>% 
    group_by(id) %>% 
    mutate(reset = cumsum(
        Reduce(
            function(x, y) if (x + y >= 5) 0 else x + y, 
            diff(val), init = 0, accumulate = TRUE
        ) == 0
    ))
#> # A tibble: 13 x 3
#> # Groups:   id [3]
#>       id   val reset
#>    <dbl> <dbl> <int>
#>  1     1     2     1
#>  2     1    10     2
#>  3     1    12     2
#>  4     1    15     3
#>  5     1    17     3
#>  6     2     2     1
#>  7     2     4     1
#>  8     2     7     2
#>  9     2     8     2
#> 10     3    12     1
#> 11     3    15     1
#> 12     3    20     2
#> 13     3    25     3

或与 purrr::accumulate ,

df %>% 
    group_by(id) %>%
    mutate(reset = cumsum(
        accumulate(
            diff(val), 
            ~if (.x + .y >= 5) 0 else .x + .y, 
            .init = 0
        ) == 0
    ))
#> # A tibble: 13 x 3
#> # Groups:   id [3]
#>       id   val reset
#>    <dbl> <dbl> <int>
#>  1     1     2     1
#>  2     1    10     2
#>  3     1    12     2
#>  4     1    15     3
#>  5     1    17     3
#>  6     2     2     1
#>  7     2     4     1
#>  8     2     7     2
#>  9     2     8     2
#> 10     3    12     1
#> 11     3    15     1
#> 12     3    20     2
#> 13     3    25     3

关于编辑，问题在于某些差异为 0，这与查看重置的计数相同。最简单的解决方案是使用 NA而不是零作为重置值:

library(tidyverse)

sub.df <- structure(list(`ID` = c("1", "1", "1", "1", "1", "1", "1", "1", "1"), 
                         dateFormat = structure(c(1479955726, 1479955726, 1483703713, 
                            1495190809, 1495190809, 1497265079, 1497265079, 1474023059, 1474023061), 
                            class = c("POSIXct", "POSIXt"), tzone = "America/Chicago")), 
                    .Names = c("ID", "dateFormat"), row.names = c(NA, -9L), 
                    class = c("tbl_df", "tbl", "data.frame")) 

sub.df %>% 
    group_by(ID) %>% 
    arrange(ID, dateFormat) %>%
    mutate(reset = cumsum(is.na(
               accumulate(diff(dateFormat), 
                          ~{
                              s <- sum(.x, .y, na.rm = TRUE);
                              if (s >= 5) NA else s
                          }, 
                          .init = NA)
    )))
#> # A tibble: 9 x 3
#> # Groups:   ID [1]
#>      ID          dateFormat reset
#>   <chr>              <dttm> <int>
#> 1     1 2016-09-16 05:50:59     1
#> 2     1 2016-09-16 05:51:01     1
#> 3     1 2016-11-23 20:48:46     2
#> 4     1 2016-11-23 20:48:46     2
#> 5     1 2017-01-06 05:55:13     3
#> 6     1 2017-05-19 05:46:49     4
#> 7     1 2017-05-19 05:46:49     4
#> 8     1 2017-06-12 05:57:59     5
#> 9     1 2017-06-12 05:57:59     5

然而，这种方法最终也面临着限制，就好像任何值实际上都是 NA 一样。，它将类似地递增。一个更健壮的解决方案是从每次迭代中返回一个包含两个元素的列表，一个是重置的总数，一个是重置计数。不过，这需要更多的工作来实现:

sub.df %>% 
    group_by(ID) %>% 
    arrange(ID, dateFormat) %>%
    mutate(total_reset = accumulate(
        transpose(list(total = diff(dateFormat), reset = rep(0, n() - 1))),
        ~{
            s <- .x$total + .y$total;
            if (s >= 5) {
                data_frame(total = 0, reset = .x$reset + 1)
            } else {
                data_frame(total = s, reset = .x$reset)
            }
        }, 
        .init = data_frame(total = 0, reset = 1)
    )) %>% 
    unnest()
#> # A tibble: 9 x 4
#> # Groups:   ID [1]
#>      ID          dateFormat total reset
#>   <chr>              <dttm> <dbl> <dbl>
#> 1     1 2016-09-16 05:50:59     0     1
#> 2     1 2016-09-16 05:51:01     2     1
#> 3     1 2016-11-23 20:48:46     0     2
#> 4     1 2016-11-23 20:48:46     0     2
#> 5     1 2017-01-06 05:55:13     0     3
#> 6     1 2017-05-19 05:46:49     0     4
#> 7     1 2017-05-19 05:46:49     0     4
#> 8     1 2017-06-12 05:57:59     0     5
#> 9     1 2017-06-12 05:57:59     0     5

总数看起来有点傻，但如果你看看差异，它实际上是正确的。

关于r - 满足条件时如何重复序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47680783/

文章推荐： date - Impala 中两个日期之间的天数差异

文章推荐： github - 启动板和github同步

文章推荐：同时使用 ARKit 和 AVCamera

rust - 创建 NaN 时如何 panic ？
我试图找到在庞大的代码库中创建 NaN 的位置。是否有一些编译器标志或我可以用来在 NaN 上 panic 的东西，这样我就可以找到它在哪一行？最佳答案没有编译器标志。你能做的最好的事情就是把你的
java - 当依赖类存在多个 bean 时如何 Autowiring ？
A类 class ClassA { @Autowired class ClassB; } 类配置: @Configuration class TestConfi
r - 使用 R 时如何 "think OOP"？
我是一名统计学研究生，经常使用 R。我熟悉其他编程环境中的 OOP。我什至在各种定义用于存储数据的新类的统计包中看到了它的使用。在我研究生生涯的这个阶段，我通常会为一些类作业编写一些算法——一些接收
python - 使用 cv2 时如何 'mirror' 实时网络摄像头视频？
我想要两个不同的网络摄像头视频输出，一个是普通的网络摄像头镜头，另一个是它的“镜像”版本。 cv2可以吗？ import time, cv2 video=cv2.VideoCapture(0) a=0
javascript - 使用搜索过滤器 Bootstrap 时如何 float div
我创建了一个可以通过两种方式过滤的图库。一个通过单击按钮，另一个通过搜索过滤器。过滤器工作完美，除了当 div 隐藏在过滤器上时，其余显示的 div 不会彼此相邻 float 。这是过滤前的样子:
git - 从服务器 pull 时如何 merge 和删除git中的冲突
我们作为一个 4 人团队工作，我们的项目部署在 openshift我们使用 git 存储库进行提交、推送和 pull 。当有人提交更多更改时，其他人必须 pull 它以在我们的系统中进行更新。但是从
jquery - 继承 jQuery Autocomplete 时如何 Hook 到所选项目
我正在尝试扩展自动完成功能，以便在选择某个项目时显示辅助标签。例如，给定显示项目的自动完成功能，项目名称将显示在包含代码的输入框旁边的 span 标记中。查看自动完成源代码，我发现过滤值的下拉列表是
ios - 使用 Core Data 时如何 NSPredicate 建立一对一关系？
我有一个包含歌曲、艺术家和专辑实体的核心数据。歌曲有可选的一对一关系艺术家到艺术家实体和专辑到专辑实体这两个实体都与 Song 实体具有反向关系。相册有可选的一对一关系艺术家到艺术家实体和可选的一
c# - XmlSerializer 在实现 IList 时如何/为什么以不同方式对待类？
XmlSerializer正在调用 IList.Add()在我的课上，我不明白为什么。我有一个自定义类(层次结构中的几个类之一)，其中包含我使用 XmlSerializer 与 XML 相互转换的数
javascript - 使用 IJavaScriptExecutor 时如何 Hook 自定义 javascript 触发器
我们在 Web 应用程序中定义了此事件，它创建了一个名为 timelineEventClicked 的自定义触发器 canvas.addEventListener('click', function
ios - Swift 最佳实践 - 使用 API 时如何/何时检查互联网连接和 404
有大量资源可用于使用 Swift(可达性)检查有效的 Internet 连接，以及在进行 API 调用时检查 httpResponse 的 statusCode 的方法，但是检查和处理这些的“正确”方
ruby-on-rails - 当我通过 Rspec 测试 Controller 时如何 stub 参数值
谁能告诉我是否可以在 Controller 规范中 stub params[] 值，以便 Controller 接受 stub 值作为 View 中的实际 params[] 值。例如，我的观点有一个
c# - : Bind to a UserControl's DependencyProperty, 当 UserControl 有一个 DataContext 时如何？
我的问题是没有在 UserControl 中连接 DependencyProperties。这不是问题。当我将 UserControl 中的按钮绑定(bind)到 UserControl 的 Depe
c++ - 使用 L 前缀(Visual C++ 编译器)时如何#define 硬编码字符串？
如何#define 路径 L"C:\Windows\System32\taskmgr.exe"来处理宽字符 #define TASK_MGR "C:\\Windows\\System32\\taskm
unit-testing - 使用RequireJS(和Jasmine/Sinon)时如何 stub 在另一个 View 渲染方法中实例化的主干 View
我正在尝试使用 Jasmine 和 Sion 编写单元测试，但是在使用 RequireJs 加载模块时我很难找到以下等效项: sinon.stub(window, "MyItemView"); 使用
css - 使用 col-*-pull 或 col-*-push 时如何 float div 元素？
我有一个包含三个 div 的示例页面，如下所示: 当浏览器大小达到 md 点并且第二个 div 高于第一个 div 时，第三个 div 开始在第一个的右侧
c# - 将 CString 从 C++ 编码(marshal)到 C# 时如何(如果需要)释放动态内存？
我在 C++ 端有 CString cs，在 C# 端有 IntPtr ip，它通过编码(marshal)处理机制包含 cs 的值。然后，我只需将需要的字符串作为 Marshal.PtrToStri

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 满足条件时如何重复序列