gpt4 book ai didi

从 R 中的文档语料库中删除 "empty"字符项?

转载 作者:行者123 更新时间:2023-12-04 19:15:17 25 4
gpt4 key购买 nike

我正在使用 tmlda R 中的包以主题建模新闻文章的语料库。但是,我遇到了一个“非字符”问题,表示为 ""这搞乱了我的话题。这是我的工作流程:

text <- Corpus(VectorSource(d$text))
newtext <- lapply(text, tolower)
sw <- c(stopwords("english"), "ahram", "online", "egypt", "egypts", "egyptian")
newtext <- lapply(newtext, function(x) removePunctuation(x))
newtext <- lapply(newtext, function(x) removeWords(x, sw))
newtext <- lapply(newtext, function(x) removeNumbers(x))
newtext <- lapply(newtext, function(x) stripWhitespace(x))
d$processed <- unlist(newtext)
corpus <- lexicalize(d$processed)
k <- 40
result <-lda.collapsed.gibbs.sampler(corpus$documents, k, corpus$vocab, 500, .02, .05,
compute.log.likelihood = TRUE, trace = 2L)

不幸的是,当我训练 lda 模型时,除了最常出现的单词是“”之外,一切看起来都很好。我尝试通过从下面给出的词汇中删除它并重新估计模型来解决这个问题:
newtext <- lapply(newtext, function(x) removeWords(x, ""))

但是,它仍然存在,如下所示:
str_split(newtext[[1]], " ")

[[1]]
[1] "" "body" "mohamed" "hassan"
[5] "cook" "found" "turkish" "search"
[9] "rescue" "teams" "rescued" "hospital"
[13] "rescue" "teams" "continued" "search"
[17] "missing" "body" "cook" "crew"
[21] "wereegyptians" "sudanese" "syrians" "hassan"
[25] "cook" "cargo" "ship" "sea"
[29] "bright" "crashed" "thursday" "port"
[33] "antalya" "southern" "turkey" "vessel"
[37] "collided" "rocks" "port" "thursday"
[41] "night" "result" "heavy" "winds"
[45] "waves" "crew" ""

关于如何删除它的任何建议?添加 ""我的停用词列表也无济于事。

最佳答案

我经常处理文本,但不处理 tm,所以这是摆脱“”的两种方法。额外的“”字符可能是因为句子之间有双空格。您可以在将文本变成词袋之前或之后处理这种情况。您可以在 strsplit 之前将所有 ""x2 替换为 ""x1,或者您可以在之后进行(您必须在 strsplit 之后取消列出)。

x <- "I like to ride my bicycle.  Do you like to ride too?"

#TREAT BEFORE(OPTION):
a <- gsub(" +", " ", x)
strsplit(a, " ")

#TREAT AFTER OPTION:
y <- unlist(strsplit(x, " "))
y[!y%in%""]

您也可以尝试:
newtext <- lapply(newtext, function(x) gsub(" +", " ", x))

我再次不使用 tm 所以这可能没有帮助,但这篇文章没有看到任何 Action ,所以我想我会分享可能性。

关于从 R 中的文档语料库中删除 "empty"字符项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10488343/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com