作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在寻找一种方法来查找文本中最常用的单词,并且我正在使用 R。
最常用的意思是指那些低频占语料库中 1% 的词。所以我需要计算语料库中的单词数。
这是我的代码,到目前为止:
#!/usr/bin/Rscript
library('tm')
library('wordcloud')
library('RColorBrewer')
twittercorpus <- system.file("stream","~/txt", package = "tm")
twittercorpus <- Corpus(DirSource("~/txt"),
readerControl=list(languageEl = "en"))
twittercorpus <- tm_map(twittercorpus, removeNumbers)
twittercorpus <- tm_map(twittercorpus,tolower)
twittercorpus <- tm_map(twittercorpus,removePunctuation)
my_stopwords <- c(stopwords("SMART"))
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords)
mydata.dtm <- TermDocumentMatrix(twittercorpus)
freqmatrix <-findFreqTerms(mydata.dtm, lowfreq=rowSums(mydata.dtm)/100)
最佳答案
如果你看 str(mydata.dtm)
有一个名为 nrow
的命名组件.使用那个:
freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)
关于r - 语料库中的单词数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13574341/
我是一名优秀的程序员,十分优秀!