gpt4 book ai didi

r - 根据滚动日期内存在的条件创建新列

转载 作者:行者123 更新时间:2023-12-01 12:38:31 25 4
gpt4 key购买 nike

为了使这个问题更笼统,我相信它也可以改写为:创建一个滚动的时间敏感因子变量。虽然这是一个不常见的要求,但这可以用于许多不同的数据源。

我有一系列非统一时间数据,每天有超过 1 条记录供数千名用户使用。我想创建一个新列 player_type 来跟踪他们行为的 30 天滚动定义。行为由他们玩什么游戏来定义; 'games' 列是 gameA、gameB 的一个因素。

因此存在三种类型的行为:

  1. 独家玩 GameA - 'A'
  2. 独家玩 GameB - 'B'
  3. 两种游戏都玩 - 'Hybrid'

我想使用这个新列来查看他们的游戏行为随时间的变化,以及计算整个时间内每个组中的玩家数量,以了解他们如何变化。

每个玩家的时间序列是高度不规则的。玩家可以每天玩多种类型的游戏,或者几个月不玩任何游戏。每个玩家的时间序列是不规则的,因此只有在玩家玩游戏时才会创建记录,因此我希望解决方案可能使用类似这样的过滤器:

interval(current_date, current_date - new_period(days=30)(使用 lubridate)。

这是一个示例数据集。请记住,它已被简化并测试了 1 天的滚动变化,因此之前检查记录的简单方法实际上不起作用。如果您能够制作更好的数据集,请提出建议,我将编辑这篇文章。

p <- c( 1,   1,   1,   2,   2,   2,   6,   6,   6)

g <- c('A', 'B', 'B', 'A', 'B', 'A', 'A', 'B', 'B')

d <- seq(as.Date('2014-10-01'), as.Date('2014-10-9'), by=1)

df <- data.frame(player_id = p, date = d, games = g)

作为我需要的输出:

 player_id       date games   type
1 1 2014-10-01 A A (OR NA)
2 1 2014-10-02 B Hybrid
3 1 2014-10-03 B B
4 2 2014-10-04 A A (OR NA)
5 2 2014-10-05 B Hybrid
6 2 2014-10-06 A Hybrid
7 6 2014-10-07 A A (OR NA)
8 6 2014-10-08 B Hybrid
9 6 2014-10-09 B B

解决方案应该是这样的,apply 通过列,并应用一个函数来检查 30 天的时间,以及一个 ifelse() 语句来查看什么他们玩的游戏。

这是一个非常相似的帖子 - 应该有助于解决这个问题。 How do I do a conditional sum which only looks between certain date criteria

我还使用 dplyr 探索了 rowwise() 和条件 mutates(),但是对我来说捕获的是历史时间组件。

感谢大家的帮助!我非常感谢这个论坛。我会经常回来查看。

最佳答案

假设我没看错,下面是使用 foverlaps() 函数的 data.table 方法。

创建dt并设置key,如下所示:

dt <- data.table(player_id = p, games = g, date = d, end_date = d)
setkey(dt, player_id, date, end_date)

hybrid_index <- function(dt, roll_days) {
ivals = copy(dt)[, date := date-roll_days]
olaps = foverlaps(ivals, dt, type="any", which=TRUE)
olaps[, val := dt$games[xid] != dt$games[yid]]
olaps[, any(val), by=xid][(V1), xid]
}

我们创建一个虚拟 data.table ivals(用于间隔),并为每一行指定开始结束日期.请注意,通过将 end_date 指定为与​​ dt$end_date 相同,我们肯定会有一个匹配项(这是故意的)- 这将为您提供非 NA 版本要求。

[在这里进行一些小改动,您可以获得 NA 版本,但我会把它留给您(假设这个答案是正确的)。]

这样我们就可以简单地找到 ivalsdt 重叠的范围,对于每个 player_id。我们得到匹配的索引。从那里很简单。如果玩家的游戏是非同质的,那么我们从 hybrid_index 返回相应的 dt 索引。我们将这些索引替换为“混合”。

# roll days = 1L
dt[, type := games][hybrid_index(dt, 1L), type := "hybrid"]
# player_id games date end_date type
# 1: 1 A 2014-10-01 2014-10-01 A
# 2: 1 B 2014-10-02 2014-10-02 hybrid
# 3: 1 B 2014-10-03 2014-10-03 B
# 4: 2 A 2014-10-04 2014-10-04 A
# 5: 2 B 2014-10-05 2014-10-05 hybrid
# 6: 2 A 2014-10-06 2014-10-06 hybrid
# 7: 6 A 2014-10-07 2014-10-07 A
# 8: 6 B 2014-10-08 2014-10-08 hybrid
# 9: 6 B 2014-10-09 2014-10-09 B

# roll days = 2L
dt[, type := games][hybrid_index(dt, 2L), type := "hybrid"]
# player_id games date end_date type
# 1: 1 A 2014-10-01 2014-10-01 A
# 2: 1 B 2014-10-02 2014-10-02 hybrid
# 3: 1 B 2014-10-03 2014-10-03 hybrid
# 4: 2 A 2014-10-04 2014-10-04 A
# 5: 2 B 2014-10-05 2014-10-05 hybrid
# 6: 2 A 2014-10-06 2014-10-06 hybrid
# 7: 6 A 2014-10-07 2014-10-07 A
# 8: 6 B 2014-10-08 2014-10-08 hybrid
# 9: 6 B 2014-10-09 2014-10-09 hybrid

为了清楚地说明这个想法,我创建了一个函数并在函数中复制了 dt。但是您可以避免这种情况,将 ivals 中的日期直接添加到 dt 并使用 by.xby.y foverlaps() 中的参数。请查看 ?foverlaps

关于r - 根据滚动日期内存在的条件创建新列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27206924/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com