gpt4 book ai didi

R - 模糊查找和重新编码

转载 作者:行者123 更新时间:2023-12-02 18:35:48 26 4
gpt4 key购买 nike

我正在清理 10 多个学区提交的人口统计数据,但提交的数据不标准化/统一。我想找到模式并重新编码,以便数据干净简单。

假设我有一个名为 Race 的变量,其中一个类别是夏威夷原住民 - 太平洋岛民

A 学校将此类别提交为夏威夷原住民或其他太平洋岛民。 B 学校将此类别提交为夏威夷原住民/太平洋岛民。 C 学校将此类别提交为夏威夷原住民或太平洋岛民

如何重新编码,以便如果 R 在变量中的任何位置看到单词 Pacific,它将重新编码为 Native Hawaiian - Pacific Islander

原始数据如下:

df_original <- data.frame(Race=c("Native Hawaiian or Other Pacific Islander",
"Native Hawaiian/Pacific Islander", "Native Hawaiian or Pacific Islander",
"Black or African American", "Black", "Black/African American"))

这是理想的清理数据:

df_desired <- data.frame(Race=c("Native Hawaiian - Pacific Islander","Native Hawaiian - Pacific Islander",
"Native Hawaiian - Pacific Islander","Black - African American",
"Black - African American","Black - African American"))

最佳答案

grepl() 对于包含“Pacific”的字符串将返回 TRUE,否则返回 False。使用它来子集您的向量并替换为您想要的字符串:

df_original$Race[grepl("Pacific", df_original$Race)] <- "Native Hawaiian - Pacific Islander"

关于R - 模糊查找和重新编码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/68796220/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com