gpt4 book ai didi

R:因子水平,将其余重新编码为 'other'

转载 作者:行者123 更新时间:2023-12-04 02:02:29 24 4
gpt4 key购买 nike

我很少使用因子,通常认为它们易于理解,但我经常对特定操作的细节感到模糊。目前,我正在编码/折叠类别,几乎没有观察到“其他”,并且正在寻找一种快速的方法来做到这一点 - 我有一个可能有 20 个级别的变量,但我有兴趣将其中的一堆折叠为一个。

data <- data.frame(employees = sample.int(1000,500),
naics = sample(c('621111','621112','621210','621310','621320','621330','621340','621391','621399','621410','621420','621491','621492','621493','621498','621511','621512','621610','621910','621991','621999'),
100, replace=T))

这是我的兴趣水平,以及它们在不同向量中的标签。
#levels and labels
top8 <-c('621111','621210','621399','621610','621330',
'621310','621511','621420','621320')
top8_desc <- c('Offices of physicians',
'Offices of dentists',
'Offices of all other miscellaneous health practitioners',
'Home health care services',
'Offices of Mental Health Practitioners',
'Offices of chiropractors',
'Medical Laboratories',
'Outpatient Mental Health and Substance Abuse Centers',
'Offices of optometrists')

我可以使用 factor()调用,将它们全部列举出来,每当一个类别几乎没有观察到时,就将它们归类为“其他”。

假设 top8top8_desc以上是实际的前8名,最好的申报方式是什么 data$naics作为因子变量,使得 top8 中的值正确编码,其他所有内容都重新编码为 other ?

最佳答案

我认为最简单的方法是将所有不在前 8 名中的 naics 重新标记为特殊值。

data$naics[!(data$naics %in% top8)] = -99

然后你可以在把它变成一个因素时使用“排除”选项
factor(data$naics, exclude=-99)

关于R:因子水平,将其余重新编码为 'other',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15533594/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com