作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这个问题在这里已经有了答案:
R tm removeWords function not removing words
(2 个回答)
6年前关闭。
我正在尝试构建此处找到的危险数据集的 wordcloud:https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
我的代码如下:
library(tm)
library(SnowballC)
library(wordcloud)
jeopQ <- read.csv('JEOPARDY_CSV.csv', stringsAsFactors = FALSE)
jeopCorpus <- Corpus(VectorSource(jeopQ$Question))
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, removeWords, c('the', 'this', stopwords('english')))
jeopCorpus <- tm_map(jeopCorpus, stemDocument)
wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)
最佳答案
问题在于您没有执行小写操作。很多问题都以“The”开头。停用词都是小写的,例如“这个”和“这个”。由于 "The"!= "the", "The"它不会从语料库中删除
如果您使用下面的代码,它应该可以正常工作:
jeopCorpus <- tm_map(jeopCorpus, content_transformer(tolower))
jeopCorpus <- tm_map(jeopCorpus, removeWords, stopwords('english'))
jeopCorpus <- tm_map(jeopCorpus, removePunctuation)
jeopCorpus <- tm_map(jeopCorpus, PlainTextDocument)
jeopCorpus <- tm_map(jeopCorpus, stemDocument)
wordcloud(jeopCorpus, max.words = 100, random.order = FALSE)
关于removeWords 不起作用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32397800/
这个问题在这里已经有了答案: R tm removeWords function not removing words (2 个回答) 6年前关闭。 我正在尝试构建此处找到的危险数据集的 wordcl
我正在使用 R tm 包,发现几乎没有一个删除文本元素的 tm_map 函数对我有用。 “工作”是指例如,我将运行: d <- tm_map(d, removeWords, stopwords('en
我想使用 removeWords (stopwords("english"))功能通过:corpus <- tm_map(corpus,removeWords, stopwords("english"
我是一名优秀的程序员,十分优秀!