gpt4 book ai didi

removeWords 不起作用

转载 作者:行者123 更新时间:2023-12-04 01:27:37 25 4
gpt4 key购买 nike

这个问题在这里已经有了答案:





R tm removeWords function not removing words

(2 个回答)


6年前关闭。




我正在尝试构建此处找到的危险数据集的 wordcloud:https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

我的代码如下:

library(tm)
library(SnowballC)
library(wordcloud)

jeopQ <- read.csv('JEOPARDY_CSV.csv', stringsAsFactors = FALSE)

jeopCorpus <- Corpus(VectorSource(jeopQ$Question))
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, removeWords, c('the', 'this', stopwords('english')))
jeopCorpus <- tm_map(jeopCorpus, stemDocument)

wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)

“the”和“this”这两个词仍然出现在词云中。为什么会发生这种情况,我该如何解决?

最佳答案

问题在于您没有执行小写操作。很多问题都以“The”开头。停用词都是小写的,例如“这个”和“这个”。由于 "The"!= "the", "The"它不会从语料库中删除

如果您使用下面的代码,它应该可以正常工作:

jeopCorpus <- tm_map(jeopCorpus, content_transformer(tolower))
jeopCorpus <- tm_map(jeopCorpus, removeWords, stopwords('english'))
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, stemDocument)

wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)

关于removeWords 不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32397800/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com