gpt4 book ai didi

r - 如何在 R 中有效地重新编码多列?

转载 作者:行者123 更新时间:2023-12-02 17:59:31 27 4
gpt4 key购买 nike

我需要重新编码一些数据。首先,我想象一下原始数据看起来像这样

A data.frame: 6 × 5
col1 col2 col3 col4 col5
<chr> <chr> <chr> <chr> <chr>
s1 414234 244575 539645 436236
s2 NA 512342 644252 835325
s3 NA NA 816747 475295
s4 NA NA NA 125429
s5 NA NA NA NA
s6 617465 844526 NA 194262

其次,它被转化为

A data.frame: 6 × 5
col1 col2 col3 col4 col5
<chr> <int> <int> <int> <int>
s1 4 2 5 4
s2 NA 5 6 8
s3 NA NA 8 4
s4 NA NA NA 1
s5 NA NA NA NA
s6 6 8 NA 1

因为我要根据第一位数字重新编码所有内容。第三次重新编码时(请参阅下面的 MWE 中的重新编码模式),它应该如下所示

A data.frame: 6 × 5
col1 col2 col3 col4 col5
<chr> <int> <int> <int> <int>
s1 3 1 3 3
s2 NA 3 4 5
s3 NA NA 5 3
s4 NA NA NA 1
s5 NA NA NA NA
s6 4 5 NA 1

第四,如果除第一列之外的所有列都为空,则应删除整行,即

A data.frame: 6 × 5
col1 col2 col3 col4 col5
<chr> <int> <int> <int> <int>
s1 3 1 3 3
s2 NA 3 4 5
s3 NA NA 5 3
s4 NA NA NA 1
s6 4 5 NA 1

这是最终的数据。

第一步和第二步很容易实现,但由于我是R新手,所以我在第三步和第四步上遇到了困难(请参阅下面的MWE)。对于第三步,我尝试在多个列上使用 mutateUseMethod("mutate") 中的错误:没有适用于 'mutate' 的方法应用于类“c('”的对象出现“integer', 'numeric')”。第四步可以在 Python 中使用 thresh 轻松实现,但我不确定 R 中是否有等效的方法。

这怎么可能?此外,我处理大量数据,因此高效的解决方案也将受到高度赞赏。

library(dplyr)

df <- data.frame(
col1 = c("s1", "s2", "s3", "s4", "s5", "s6"),
col2 = c("414234", NA, NA, NA, NA, "617465"),
col3 = c("244575", "512342", NA, NA, NA, "844526"),
col4 = c("539645", "644252", "816747", NA, NA, NA),
col5 = c("436236", "835325", "475295", "125429", NA, "194262")
)

n = ncol(df)

for (i in colnames(df[2:n])) {
df[, i] = strtoi(substr(df[, i], 1, 1))
}

for (i in colnames(df[2:n])) {
df[, i] %>% mutate(i=recode(i, "0": 1, "1": 1, "2": 1, "3": 2, "4": 3, "5": 3, "6": 4, "7": 5, "8": 5))
}

最佳答案

基础R方式:

# cut out just the numeric columns
df2 <- as.matrix(df[, -1])
# first digits
df2[] <- substr(df2, 1, 1)
mode(df2) <- 'numeric'
# recode
df2[] <- c(1, 1, 1, 2, 3, 3, 4, 5, 5)[df2+1]
# write back into the original data frame
df[, -1] <- df2
# remove rows with NAs only
df <- df[apply(df[, -1], 1, \(x) !all(is.na(x))), ]

df
# V1 V2 V3 V4 V5
# 1 s1 3 1 3 3
# 2 s2 NA 3 4 5
# 3 s3 NA NA 5 3
# 4 s4 NA NA NA 1
# 6 s6 4 5 NA 1

正如您所看到的,没有必要逐列执行操作,因为它们可以整体执行,这样会更高效。

关于r - 如何在 R 中有效地重新编码多列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74784487/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com