gpt4 book ai didi

r - 来自data.frame的唯一单词列表

转载 作者:行者123 更新时间:2023-12-04 23:21:17 25 4
gpt4 key购买 nike

我是R的新手,所以请耐心等待。

我有一个字符向量,其中的一列以不一致的格式描述疾病和诊断关键字。样本有:

flu
fever/feverish
fever cold

我正在寻找从中提取所有唯一单词的最佳方法。到目前为止,我能弄清楚的最佳过程是给我一个向量向量:
[[1]]
[[1]][[1]]
[1] "flu"

[[2]]
[[2]][[1]]
[1] "fever" "feverish"
...

我通过使用以下方法实现此目的:
split_words <- function(x){ strsplit(x, "[^[:alpha:]]+") }
lapply(diagnoses, split_words)

将其转换为单个向量或单列数据帧的最佳方法是什么,以便我可以在此向量上运行 unique并删除重复项。

R上进行词干消除相似拼写,复数形式等的最佳软件包是什么?

最佳答案

您可以在unlist之后使用strsplit来获取包含所有元素的向量,并使用unique来获取唯一元素。

x <- c("flu", "fever/feverish", "fever cold")
( ul <- unlist(strsplit(x, "\\s+|[[:punct:]]")) )
# [1] "flu" "fever" "feverish" "fever" "cold"
unique(ul)
# [1] "flu" "fever" "feverish" "cold"

关于r - 来自data.frame的唯一单词列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25943679/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com