gpt4 book ai didi

r - 识别向量中的 NA 集

转载 作者:行者123 更新时间:2023-12-01 19:46:27 25 4
gpt4 key购买 nike

假设我有一个向量x:

x <- c(NA, NA, 1, 2, NA, NA, 3, 4)

我如何识别此向量中的 NA 集,即,

na_set <- c(1, 1, 0, 0, 2, 2, 0, 0)

我的最终目标是使用 dplyr 将其与数据框上的管道一起使用。所以,如果有一个与 dplyr 兼容的功能就更好了。

谢谢!

最佳答案

你可以取is.na(x)diff。这将是 1 IFF 元素为 TRUE 且前一个元素为 FALSE。在应用 == 1 之后,您有一个逻辑向量,对于 NA 组开始,它是 TRUE。然后你可以用 cumsum 来确定你在哪个 NA 组,然后乘以 is.na(x) 来设置 ne非 NA0

cumsum(diff(is.na(c(1, x))) == 1)*is.na(x)
#[1] 1 1 0 0 2 2 0 0

显示的中间结果:

a <- is.na(c(1, x))
a
#[1] FALSE TRUE TRUE FALSE FALSE TRUE TRUE FALSE FALSE
b <- diff(a) == 1
b
#[1] TRUE FALSE FALSE FALSE TRUE FALSE FALSE FALSE
d <- cumsum(b)
d
#[1] 1 1 1 1 2 2 2 2

我很感兴趣,所以我做了一个基准测试。我认为结果实际上并不重要,即使对于 1e7length(x),差异也以毫秒为单位。

x <- c(NA,NA, 1,2,NA,NA, 3,4)
x <- sample(x, 1e7, T)

f_rleid <- function(x){
nax <- is.na(x)
r <- rleid(x)*nax
r[nax] <- rleid(r[nax])
r
}

f_rle <- function(x){
r <- rle(is.na(x))
r$values <- cumsum(r$values) * r$values
inverse.rle(r)
}

f_diffna <- function(x){
nax <- is.na(x)
cumsum(c(as.integer(nax[1]), diff(nax)) == 1L)*nax
}

all.equal(f_rleid(x), f_rle(x))
# [1] TRUE
all.equal(f_rleid(x), f_diffna(x))
# [1] TRUE

microbenchmark::microbenchmark(f_rleid(x), f_rle(x),f_diffna(x))

# Unit: milliseconds
# expr min lq mean median uq max neval
# f_rleid(x) 421.9483 437.3314 469.3564 446.5081 511.9315 582.5812 100
# f_rle(x) 451.3790 519.5278 560.8057 572.4148 591.7632 697.2100 100
# f_diffna(x) 248.3631 267.5462 315.6224 291.5910 362.8829 459.6873 100

关于r - 识别向量中的 NA 集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54756104/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com