gpt4 book ai didi

使用 R 从字符中删除停用词

转载 作者:行者123 更新时间:2023-12-04 10:47:50 25 4
gpt4 key购买 nike

考虑到我有下面提到的字符串;

str_input <- c("Mellanox,Asia, China, India, JAVA, United States, APIs")

我使用了下面提到的 gsub 代码,它删除了我的特定停止词。
gsub(paste0("\\b(",paste(location_sw, collapse="|"),")\\b"), "", str_input)

其中,location_sw 包含我的停用词列表,如下所述
location_sw <- c('Rose', 'Java', 'JAVA', 'Mellanox', 'Microsoft', '144GiB', 'West',
'Amazon', 'Channel Asia', 'jClarity', 'APIs')

在使用上面提供的 gsub 代码时,我得到了下面提到的输出
",Asia, China, India, , United States, "

但是,我想要以下结果;
"Asia, China, India, United States"

我想在删除停用词后删除逗号。任何输入都会非常有帮助。

最佳答案

另一种方法是strsplit将字符串转换为字符向量,然后取 setdiff关于 location_sw :

out <- setdiff(strsplit(str_input, split = ",\\s*")[[1]], location_sw)
out
#> [1] "Asia" "China" "India" "United States"

如有需要,我们可以 paste它回到一个字符:

paste(out, collapse = ", ")
#> [1] "Asia, China, India, United States"

关于使用 R 从字符中删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57604080/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com