gpt4 book ai didi

r - 确定数据帧中前一行的值是否重复

转载 作者:行者123 更新时间:2023-12-02 09:29:31 24 4
gpt4 key购买 nike

我有一些数据组织如下:

set.seed(12)

ids <- matrix(replicate(1000,sample(LETTERS[1:4],2)),ncol=2,byrow=T)

df <- data.frame(
event = 1:100,
id1 = ids[,1],
id2 = ids[,2],
grp = rep(1:10, each=100), stringsAsFactors=F)

head(df,10)

event id1 id2 grp
1 1 A C 1
2 2 D A 1
3 3 A D 1
4 4 A B 1
5 5 A D 1
6 6 B C 1
7 7 B D 1
8 8 B D 1
9 9 B D 1
10 10 C A 1

有成对的 ID(id1 和 id2)。在一行中,它们永远不会相同。有一个变量叫grp。有10组。每个组都可以被视为一个单独的数据样本。每组中的事件变量范围为 1-100。

我的第一个问题非常简单。在每个组内,对于每行,是与前一行相同、与前一行相反的两个 id (id1-id2) 的组合,或者这两个选项都不是。显然,如果一组的第 100 行有 A-C 组合,我对下一组的第 1 行是否相反、相同或其他不感兴趣。

这是我的临时解决方案:

#Give each id pair and identifier:
df$pair <- paste(pmin(df$id1,df$id2), pmax(df$id1,df$id2))

#For each grp, work out using `lag` if previous row contains same pair of ids, and if they are in same or reversed order:

df.sp <- split(df, df$grp)
df$value <- unlist(lapply(df.sp, function(x) ifelse(x$pair!=lag(x$pair), NA, ifelse(x$id1==lag(x$id1), 1, 0)) ))

这给出:

head(df,10)
event id1 id2 grp pair value
1 1 A C 1 A C NA
2 2 D A 1 A D NA
3 3 A D 1 A D 0
4 4 A B 1 A B NA
5 5 A D 1 A D NA
6 6 B C 1 B C NA
7 7 B D 1 B D NA
8 8 B D 1 B D 1
9 9 B D 1 B D 1
10 10 C A 1 A C NA

这有效 - 显示 0 为反转,1 为复制,NA 为两者都不是。

我感兴趣的更复杂的问题如下。在每个组 (grp) 中,对于每一行,查找其两个 id 的组合(一对)先前是否出现在该 grp 中。如果确实如此,则返回它们与前一次发生时的顺序相同还是相反。

结果将如下所示:

   event id1 id2 grp pair value
1 1 A C 1 A C NA
2 2 D A 1 A D NA
3 3 A D 1 A D 0
4 4 A B 1 A B NA
5 5 A D 1 A D 1
6 6 B C 1 B C NA
7 7 B D 1 B D NA
8 8 B D 1 B D 1
9 9 B D 1 B D 1
10 10 C A 1 A C 0

例如第 10 行返回为 0,因为组合 A-C 先前出现过并且顺序相反(第 1 行)。在第 5 行,返回 1,因为 A-D 先前在第 3 行以相同的顺序出现。

最佳答案

你就快到了!第二个问题与第一个问题等效,只是按pairgroup分组。我将代码转换为 dplyr (尽管我很欣赏将问题保留在 base 中的精神)。我还删除了第二个 ifelse,将其替换为逻辑的数字转换,这应该具有更高的性能(有些人会发现更容易阅读)。

df %>% group_by(grp) %>%
mutate(
pair = paste(pmin(id1, id2), pmax(id1, id2)),
prev_row = ifelse(pair != lag(pair), NA, as.numeric(id1 == lag(id1)))
) %>%
group_by(grp, pair) %>%
mutate(prev_any = ifelse(pair != lag(pair), NA, as.numeric(id1 == lag(id1)))) %>%
head(10)
# Source: local data frame [10 x 7]
# Groups: grp, pair [5]
#
# event id1 id2 grp pair prev_row prev_any
# (int) (chr) (chr) (int) (chr) (dbl) (dbl)
# 1 1 A C 1 A C NA NA
# 2 2 D A 1 A D NA NA
# 3 3 A D 1 A D 0 0
# 4 4 A B 1 A B NA NA
# 5 5 A D 1 A D NA 1
# 6 6 B C 1 B C NA NA
# 7 7 B D 1 B D NA NA
# 8 8 B D 1 B D 1 1
# 9 9 B D 1 B D 1 1
# 10 10 C A 1 A C NA 0

关于r - 确定数据帧中前一行的值是否重复,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34620479/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com