r - 语料库中的单词数-6ren

r - 语料库中的单词数

转载作者：行者123 更新时间：2023-12-04 23:58:32

我正在寻找一种方法来查找文本中最常用的单词，并且我正在使用 R。
最常用的意思是指那些低频占语料库中 1% 的词。所以我需要计算语料库中的单词数。

这是我的代码，到目前为止:

#!/usr/bin/Rscript
library('tm')
library('wordcloud')
library('RColorBrewer')
twittercorpus <- system.file("stream","~/txt", package = "tm")
twittercorpus <- Corpus(DirSource("~/txt"),
                        readerControl=list(languageEl = "en"))
twittercorpus <- tm_map(twittercorpus, removeNumbers)
twittercorpus <- tm_map(twittercorpus,tolower)
twittercorpus <- tm_map(twittercorpus,removePunctuation)
my_stopwords <- c(stopwords("SMART"))
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords)
mydata.dtm <- TermDocumentMatrix(twittercorpus)

我需要类似的东西:

freqmatrix <-findFreqTerms(mydata.dtm, lowfreq=rowSums(mydata.dtm)/100)

最佳答案

如果你看 str(mydata.dtm)有一个名为 nrow 的命名组件.使用那个:

freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)

关于r - 语料库中的单词数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13574341/

文章推荐： simulate - 一个模拟键盘按压的程序

文章推荐： sublimetext2 - Sublime Text 2 : Recognize Makefile. 本地作为 Makefile

文章推荐： cvs - 相当于 CVS 中的 git stash？

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 语料库中的单词数