gpt4 book ai didi

R - 比较列中的值并使用此比较结果创建新列。有没有比循环更好的方法?

转载 作者:行者123 更新时间:2023-12-04 09:15:43 25 4
gpt4 key购买 nike

我是 R 的初学者。虽然我已经阅读了很多手册和这里的这个板,但我必须问我的第一个问题。有点像here但实际上不一样,我不明白那里的解释。
我有一个包含数十万行和 30 列的数据框。但是对于我的问题,我创建了一个您可以使用的更简单的数据框:

a <- sample(c(1,3,5,9), 20, replace = TRUE)
b <- sample(c(1,NA), 20, replace = TRUE)
df <- data.frame(a,b)

现在我想比较最后一列的值(这里是 b 列),这样我就可以迭代地查看每一行的值,如果它与下一行相同排。如果相同我想在同一行的新列中写一个 0 作为值,否则它应该是一个 1 作为新列的值.

在这里你可以看到我的代码,那是行不通的,因为新列的行只包含0:

m<-c()

for (i in seq(along=df[,1])){
ifelse(df$b[i] == df$b[i+1],m <- 0, m <- 1)
df$mov <- m
}

结果,我想要得到的,如下例所示。怎么了?还有比创建循环更好的方法吗?对于我的大数据集,循环可能会非常慢。

   a  b mov
1 9 NA 0
2 1 NA 1
3 1 1 1
4 5 NA 0
5 1 NA 0
6 3 NA 0
7 3 NA 1
8 5 1 0
9 1 1 0
10 3 1 0
11 1 1 0
12 9 1 0
13 1 1 1
14 5 NA 0
15 9 NA 0
16 9 NA 0
17 9 NA 0
18 5 NA 0
19 3 NA 0
20 1 NA 0

感谢您的帮助!

最佳答案

在您的示例中有几件事需要考虑。

首先,为避免循环,您可以创建移动一个位置的矢量副本。 (大约有 20 种方法可以做到这一点。)然后,当您测试向量 BC 时,它将对每个位置与其相邻位置进行逐元素比较。

其次,相等比较不适用于 NA——它们总是返回 NA。所以 NA == NA 不是 TRUE 它是 NA!同样,大约有 20 种方法可以解决这个问题,但在这里我只是将临时向量中的所有 NA 替换为一个占位符,该占位符将用于相等性测试。

最后,您必须决定要对最后一个值(没有邻居)做什么。我在这里放置了 1,这是您对“与其邻居不匹配”的分配。

因此,根据 b 中可能的值范围,您可以这样做

c = df$b 
z = length(c)
c[is.na(c)] = 'x' # replace NA with value that will allow equality test
df$mov = c(1 * !(c[1:z-1] == c[2:z]),1) # add 1 to the end for the last value

关于R - 比较列中的值并使用此比较结果创建新列。有没有比循环更好的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19794006/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com