r - 如何为每个分组元素选择随机的非连续日期？-6ren

r - 如何为每个分组元素选择随机的非连续日期？

转载作者：行者123 更新时间：2023-12-04 03:34:23

24

4

我目前正在尝试为每个分组列选择非连续的日期。

换句话说，我有以下数据框:

我想基本上 group_by(Site) 然后为每个分组的网站只保留 3 个随机的非连续日期。例如，如果 HP37P1B 的日期对应于 3 月 12 日、3 月 13 日、3 月 14 日和 3 月 7 日 - 我需要一个数据框(例如)只有:

HP37P1B 3 月 12 日

HP37P1B 3 月 14 日

HP37P1B 3 月 7 日

到目前为止，我已经尝试了一些使用 diff()、ave() 和 lubridate 包的 stackoverflow 帖子，但是我没有取得任何成功。

编辑

根据下面的评论，我正在努力使这个问题可重现

dput(uniqueSiteDate)

structure(list(Site = c("HP37P1B", "HP37P2B", "HP37P4B", "HP4008U", 
"INME03R", "INME03U", "INOA03R", "IPTO04R", "IPTO04U", "IPTO06R", 
"IPTO06U", "OLCAP2B", "OLCAP3B", "OLCAP5B", "PANMP1B", "PANMP2B", 
"PANMP3B", "STIN02R", "STIN02U", "UPMAP1B", "UPMAP3B", "UPMAP4B", 
"UPMAP5B", "UPMAP6B", "VAR210R", "VAR310R", "VAR310U", "VAR410R", 
"VAR410U", "HP36P1B", "HP36P3B", "HP36P4B", "HP4008R", "INBS04R", 
"INBS04U", "SEL107R", "SEL107U", "SEL207R", "SEL207U", "OLV110R", 
"OLV110U", "OLV208R", "OLV208U", "THEN10U", "HP37P1B", "HP37P2B", 
"HP37P4B", "HP4008U", "INME03R", "INME03U", "INOA03R", "IPTO04R", 
"IPTO04U", "IPTO06R", "IPTO06U", "OLCAP2B", "OLCAP3B", "OLCAP5B", 
"PANMP1B", "PANMP2B", "PANMP3B", "STIN02R", "STIN02U", "UPMAP1B", 
"UPMAP3B", "UPMAP4B", "UPMAP5B", "UPMAP6B", "VAR210R", "VAR310R", 
"VAR310U", "VAR410R", "VAR410U", "OLV110R", "OLV110U", "OLV208R", 
"OLV208U", "THEN10U", "HP37P1B", "HP37P2B", "HP37P4B", "HP4008U", 
"INME03R", "INME03U", "INOA03R", "IPTO04R", "IPTO04U", "IPTO06R", 
"IPTO06U", "OLCAP2B", "OLCAP3B", "OLCAP5B", "PANMP1B", "PANMP2B", 
"PANMP3B", "STIN02R", "STIN02U", "UPMAP1B", "UPMAP3B", "UPMAP4B", 
"UPMAP5B", "UPMAP6B", "VAR210R", "VAR310R", "VAR310U", "VAR410R", 
"VAR410U", "OLV110R", "OLV110U", "OLV208R", "OLV208U", "THEN10U", 
"HP37P1B", "HP37P2B", "HP37P4B", "HP4008U", "INME03R", "INME03U", 
"INOA03R", "IPTO04R", "IPTO04U", "IPTO06R", "IPTO06U", "OLCAP2B", 
"OLCAP3B"), Date = structure(c(18333, 18333, 18333, 18333, 18335, 
18335, 18335, 18338, 18335, 18338, 18335, 18333, 18333, 18333, 
18334, 18334, 18334, 18331, 18331, 18331, 18330, 18330, 18330, 
18330, 18332, 18332, 18332, 18332, 18332, 18325, 18325, 18325, 
18325, 18327, 18327, 18327, 18327, 18327, 18328, 18340, 18340, 
18340, 18340, 18340, 18334, 18334, 18334, 18334, 18336, 18336, 
18336, 18339, 18336, 18340, 18336, 18335, 18334, 18334, 18335, 
18335, 18335, 18332, 18332, 18332, 18331, 18331, 18331, 18331, 
18333, 18333, 18333, 18333, 18333, 18341, 18341, 18341, 18341,
18341, 18335, 18335, 18335, 18335, 18383, 18383, 18383, 18384, 
18384, 18384, 18384, 18385, 18385, 18335, 18342, 18342, 18341, 
18383, 18383, 18345, 18349, 18349, 18349, 18349, 18340, 18339, 
18340, 18341, 18339, 18386, 18386, 18348, 18346, 18347, 18328, 
18328, 18328, 18328, 18390, 18389, 18391, 18392, 18392, 18392, 
18392, 18392, 18392), class = "Date")), row.names = c(NA, -125L
), groups = structure(list(Site = c("HP36P1B", "HP36P3B", "HP36P4B", 
"HP37P1B", "HP37P2B", "HP37P4B", "HP4008R", "HP4008U", "INBS04R", 
"INBS04U", "INME03R", "INME03U", "INOA03R", "IPTO04R", "IPTO04U", 
"IPTO06R", "IPTO06U", "OLCAP2B", "OLCAP3B", "OLCAP5B", "OLV110R", 
"OLV110U", "OLV208R", "OLV208U", "PANMP1B", "PANMP2B", "PANMP3B", 
"SEL107R", "SEL107U", "SEL207R", "SEL207U", "STIN02R", "STIN02U", 
"THEN10U", "UPMAP1B", "UPMAP3B", "UPMAP4B", "UPMAP5B", "UPMAP6B", 
"VAR210R", "VAR310R", "VAR310U", "VAR410R", "VAR410U"), .rows = structure(list(
    30L, 31L, 32L, c(1L, 45L, 79L, 113L), c(2L, 46L, 80L, 114L
    ), c(3L, 47L, 81L, 115L), 33L, c(4L, 48L, 82L, 116L), 34L, 
    35L, c(5L, 49L, 83L, 117L), c(6L, 50L, 84L, 118L), c(7L, 
    51L, 85L, 119L), c(8L, 52L, 86L, 120L), c(9L, 53L, 87L, 121L
    ), c(10L, 54L, 88L, 122L), c(11L, 55L, 89L, 123L), c(12L, 
    56L, 90L, 124L), c(13L, 57L, 91L, 125L), c(14L, 58L, 92L), 
    c(40L, 74L, 108L), c(41L, 75L, 109L), c(42L, 76L, 110L), 
    c(43L, 77L, 111L), c(15L, 59L, 93L), c(16L, 60L, 94L), c(17L, 
    61L, 95L), 36L, 37L, 38L, 39L, c(18L, 62L, 96L), c(19L, 63L, 
    97L), c(44L, 78L, 112L), c(20L, 64L, 98L), c(21L, 65L, 99L
    ), c(22L, 66L, 100L), c(23L, 67L, 101L), c(24L, 68L, 102L
    ), c(25L, 69L, 103L), c(26L, 70L, 104L), c(27L, 71L, 105L
    ), c(28L, 72L, 106L), c(29L, 73L, 107L)), ptype = integer(0), class = c("vctrs_list_of", 
"vctrs_vctr", "list"))), row.names = c(NA, -44L), class = c("tbl_df", 
"tbl", "data.frame"), .drop = TRUE), class = c("grouped_df", 
"tbl_df", "tbl", "data.frame"))

要回答其他问题，有时每个站点有 3 个以上的日期，但有时每个站点只有 1 个日期。但想法是选择 n 个给定站点的非连续日期。换句话说，如果特定站点有 4 个日期，我需要 3 个不连续的日期。如果特定站点只有 1 个日期，我们就将其保留。

最佳答案

请检查是否达到目的？实际上，根据提供标准选择最大可能日期是很困难的(至少对我而言)。我们可以通过以下策略识别连续和非连续组中的日期。但是请考虑一组连续 3 个日期中的两种情况。如果随机样本包含 2 个单元，则这些单元也可以是连续的或非连续的。假设如果我们进一步选择奇数 (2) 或偶数 (1) 行，那么在我看来样本将是判断性的而不是随机的。这是采用的策略-

将数据分组
通过purrr::map_df分别对每组进行操作，最终行绑定(bind)数据
将数据(现在分组)分成连续和非连续日期(每个连续日期将在其自己的组中)。从每个组中选择唯一的行。
最后从每一行中选择三个(或更少，根据小组结果)。

library(tidyverse)

df %>% 
  ungroup() %>% 
  group_split(Site) %>% 
  map_df(., ~ .x %>% ungroup() %>%
        arrange(Date) %>%
        mutate(n = 1) %>%
        complete(Date = seq.Date(first(Date), last(Date), by = 'days')) %>%
        group_by(n = cumsum(is.na(n))) %>%
        filter(!is.na(Site)) %>%
        sample_n(1) %>%
        ungroup() %>%
        sample_n(min(n(), 3))) %>%
  select(-n)

# A tibble: 86 x 2
   Date       Site   
   <date>     <chr>  
 1 2020-03-04 HP36P1B
 2 2020-03-04 HP36P3B
 3 2020-03-04 HP36P4B
 4 2020-03-07 HP37P1B
 5 2020-03-12 HP37P1B
 6 2020-03-07 HP37P2B
 7 2020-03-12 HP37P2B
 8 2020-03-07 HP37P4B
 9 2020-03-12 HP37P4B
10 2020-03-04 HP4008R
# ... with 76 more rows

注意:你的输入是分组的，所以我不得不在代码的第二行添加 ungroup()，你可以删除它

关于r - 如何为每个分组元素选择随机的非连续日期？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/67210017/

24

4

0

文章推荐： c++ - 读取时文件被删除并重新创建。如何处理？

文章推荐： pytorch Dataloader - 如果输入数据返回多个训练实例

文章推荐： android - 为什么我的五彩纸屑来自 Android 屏幕的一角

文章推荐： python - 如何过滤数据框中 2019、2020 和 2021 年的列值？

mysql join 选择两个表之间的最小(日期)和最大(日期)
我的数据库中有两张表，一张用于 field ，另一张用于预订。我需要的是一个查询来选择所有未预订的 field 。见下文: 餐 table 预订具有以下字段: bk_id venue_id 作为(预订
php - 表格日期输入从(日期)到(日期)或我不知道一个或两个选择
嗨，我是编码新手，我有一些培训项目，其中包括从 HTML 表单输入 MySQL 数据库。它就像你玩过的游戏的日志。第一个日期输入是您开始游戏的时间，第二个日期输入是您完成游戏的时间。但我需要检查器或类
mysql - 如何从同一张表中获取最小(日期)、最大(日期)及其数量？
我是这个 sql 编码的新手，我正在尝试学习新的东西。因此，我创建了一个交货表，其中包含一些属性，如商品代码、交货日期、交货数量。所以如何从同一张表中获取第一个交货日期(最小日期)和交货数量以及最晚交
PHP 日期 ISO 8601 日期时区
我从支付网关返回了这个日期 2014-05-15T08:40:52+01:00 我得到 2014-05-15T08:40:52 但我无法识别时区 +01:00 的含义我的位置时区是 UTC−06:0
sql - 从一列中选择最小(日期)、最大(日期)和按天分组 - SQL
我快要疯了，请帮忙。我有一列包含日期时间值。我需要找到每天的最小值和最大值。数据看起来像这样 2012-11-23 05:49:26.000 2012-11-23 07:55:43.000
javascript - {{x.日期 |日期 :'hh:mm' }} 不起作用
我从 json 数据中获取日期为 2015 年 4 月 15 日晚上 10:15我只想在 html 页面中显示 json 响应数据的时间，例如 10:15 PM这里我放了我的js函数和html代码 J
c# - 将 .NET 日期/时间格式字符串转换为 Javascript 日期/时间格式字符串
是否有 javascript 库或其他机制允许我将 .NET 日期/时间格式字符串(即 yyyy-MM-dd HH:mm:ss)传递给 javascript函数并让它相应地解析提供的日期时间值？我一直
javascript - 如何将 UTC 日期/时间转换为 EST 日期/时间
我正在使用以下代码以正确的格式获取当前的 UTC 时间，但客户返回并要求时间戳现在使用 EST 而不是 UTC。我搜索了 Google 和 stackoverflow，但找不到适用于我现有代码的答案。
r - 如何找到值低于 0 的 5 行或更多行(日期)系列的第一行(日期)
我有以下日期的平均温度数据。我想找到连续至少 5 天低于或高于 0 摄氏度的开始日期。 date_short mean.temp 1 2018-05-18 17.54 2 2018-05-19
javascript - 日期.值 = 新日期(日期.值);在 IE11 中不起作用
它可以在其他网络浏览器中使用，但 IE11 返回无效日期。为了调试我使用了下面的代码。 console.log('before - ' + date.value); date.value = new
javascript - 将 JSON 日期/日期(1388624400000)/转换为 Excel 中的日期
我在 Excel 中有一个数据的 Web 提取，其中日期列带有/Date(1388624400000)/。我需要在 Excel 中将其转换为日期。最佳答案能够从 here 中推断出它. 假设字符串
node.js - Mongoose 更新条件 PDT 日期/型号 ISO 日期
嗨，我的 Schmema 有一个带有 ISO 日期的字段: ISODate("2015-04-30T14:47:46.501Z") Paypal 在成功付款后以该形式返回日期对象: Time/Date
mysql - 如何在 MySQL 服务器中将最小(日期)和最大(日期)之间的小时分割为 4 小时板
我的 table : CREATE TABLE `tbdata` ( `ID` INT(10) NOT NULL AUTO_INCREMENT, `PatientID` INT(10) NOT
linux - Bash:日期 "%b"和日期 "%h"(当然还有)日期 "%B"给出月份的全名？
我正在 Ubuntu 服务器 12.04 中编写一个 shell 脚本，它应该比较日志文件中的一些数据。在日志文件中，日期以以下格式给出: [Mon Apr 08 15:02:54 2013] 如您所
mysql - 当在年(日期)和月(日期)上使用 MYSQL GROUP BY AND ROLLUP 时，我无法将 Null 更改为 'Total'
我想使用 GROUP BY WITH ROLLUP 创建一个表并获取总行数而不是 null。 $sql ="SELECT IF(YEAR(transaktioner.datum
Django 错误 : could not parse the remainder: ': "Y-m-d "' from ' post. 日期|日期: "Y-m-d"'
我正在创建博客文章，在成功迁移我的博客文件后，当我转到我网站的博客页面时返回一个错误(无法解析其余部分:':“Ymd”'来自'post.date|date: "Ymd"') 我似乎无法确定这是语法错误
JavaScript 日期
我正在尝试获取要插入到 CAML 查询中的月份范围，即:2010-09-01 和 2010-09-30。我使用以下代码生成这两个值: var month = "10/2010"; var month
JavaScript 日期
如何将代码document.write("直到指定日期")更改为writeMessage(date)中的日期？此外，writeMessage(date) 中的日期未正确显示(仅显示年份)。感谢您帮助解
更改目录时间/日期
我在 Windows (XP) 和 Linux 上都尝试过 utime()。在 Windows 上我得到一个 EACCES 错误，在 Linux 上我没有得到任何错误(但时间没有改变)。我的 utim
r - (日期)内的总和
我正在尝试计算发生在同一日期的值的总和(在 XYZmin 中)。我的数据看起来像这样， bar <- structure(list(date = structure(c(15622, 15622,

首页

博学

6Ren·AI

商城

r - 如何为每个分组元素选择随机的非连续日期？