- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在过去的几天里,我一直在为这个问题努力。我搜索了所有的SO文件,并尝试了建议的解决方案,但似乎无法正常工作。我在2000 06、1995 -99等文件夹中有txt文档集,并且想要运行一些基本的文本挖掘操作,例如创建文档术语矩阵和术语文档矩阵,以及基于单词的共置位置进行一些操作。我的脚本适用于较小的语料库,但是,当我尝试使用较大的语料库时,它会使我失望。我已经粘贴了一种此类文件夹操作的代码。
library(tm) # Framework for text mining.
library(SnowballC) # Provides wordStem() for stemming.
library(RColorBrewer) # Generate palette of colours for plots.
library(ggplot2) # Plot word frequencies.
library(magrittr)
library(Rgraphviz)
library(directlabels)
setwd("/ConvertedText")
txt <- file.path("2000 -06")
docs<-VCorpus(DirSource(txt, encoding = "UTF-8"),readerControl = list(language = "UTF-8"))
docs <- tm_map(docs, content_transformer(tolower), mc.cores=1)
docs <- tm_map(docs, removeNumbers, mc.cores=1)
docs <- tm_map(docs, removePunctuation, mc.cores=1)
docs <- tm_map(docs, stripWhitespace, mc.cores=1)
docs <- tm_map(docs, removeWords, stopwords("SMART"), mc.cores=1)
docs <- tm_map(docs, removeWords, stopwords("en"), mc.cores=1)
#corpus creation complete
setwd("/ConvertedText/output")
dtm<-DocumentTermMatrix(docs)
tdm<-TermDocumentMatrix(docs)
m<-as.matrix(dtm)
write.csv(m, file="dtm.csv")
dtms<-removeSparseTerms(dtm, 0.2)
m1<-as.matrix(dtms)
write.csv(m1, file="dtms.csv")
# matrix creation/storage complete
freq <- sort(colSums(as.matrix(dtm)), decreasing=TRUE)
wf <- data.frame(word=names(freq), freq=freq)
freq[1:50]
#adjust freq score in next line
p <- ggplot(subset(wf, freq>100), aes(word, freq))+ geom_bar(stat="identity")+ theme(axis.text.x=element_text(angle=45, hjust=1))
ggsave("frequency2000-06.png", height=12,width=17, dpi=72)
# frequency graph generated
x<-as.matrix(findFreqTerms(dtm, lowfreq=1000))
write.csv(x, file="freqterms00-06.csv")
png("correlation2000-06.png", width=12, height=12, units="in", res=900)
graph.par(list(edges=list(col="lightblue", lty="solid", lwd=0.3)))
graph.par(list(nodes=list(col="darkgreen", lty="dotted", lwd=2, fontsize=50)))
plot(dtm, terms=findFreqTerms(dtm, lowfreq=1000)[1:50],corThreshold=0.7)
dev.off()
Error in UseMethod("meta", x) :
no applicable method for 'meta' applied to an object of class "try-error"
In addition: Warning messages:
1: In mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) :
all scheduled cores encountered errors in user code
2: In mclapply(unname(content(x)), termFreq, control) :
all scheduled cores encountered errors in user code
最佳答案
我找到了可行的解决方案。
背景/调试步骤
我尝试了几种无效的方法:
sessionInfo()
输出:
R version 3.1.2 (2014-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)
locale:
[1] de_DE.UTF-8/de_DE.UTF-8/de_DE.UTF-8/C/de_DE.UTF-8/de_DE.UTF-8
attached base packages:
[1] stats graphics grDevices utils datasets methods base
other attached packages:
[1] snowfall_1.84-6 snow_0.3-13 Snowball_0.0-11 RWekajars_3.7.11-1 rJava_0.9-6 RWeka_0.4-23
[7] slam_0.1-32 SnowballC_0.5.1 tm_0.6 NLP_0.1-5 twitteR_1.1.8 devtools_1.6
loaded via a namespace (and not attached):
[1] bit_1.1-12 bit64_0.9-4 grid_3.1.2 httr_0.5 parallel_3.1.2 RCurl_1.95-4.3 rjson_0.2.14 stringr_0.6.2
[9] tools_3.1.2
MyCorpus <- tm_map(MyCorpus,
content_transformer(function(x) iconv(x, to='UTF-8-MAC', sub='byte')),
mc.cores=1)
关于r - 大文本语料库打破了tm_map,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26834576/
我尝试使用tm_map。它给出了以下错误。我该如何解决这个问题? require(tm) byword<-tm_map(byword, tolower) Error in UseMethod("t
我有一个包含以下数据的结果数据框: word freq credit credit 790 account account
我的数据如下所示: 1. Good quality, love the taste, the only ramen noodles we buy but they're available at th
我的 tm r 库有一个(小)问题。假设我有一个语料库: # boilerplate bcorp <- c("one","two","three","four","five") myCorpus <-
我一直在阅读不同的问题/答案(尤其是 here 和 here),但没有设法将任何问题/答案应用于我的情况。 我有一个 11,390 行的矩阵,其中包含属性 id、作者、文本,例如: library(t
我在 Java 6 中准备了一个带有静态方法的类,并将其导出到一个 JAR 文件中: package pl.poznan.put.stemutil; public class Stemmer {
我正在使用 tm_map(testfile, removeNumbers) 删除文本文件的数字。但是,我需要保留 ipv4 和 ipv6 等词附带的数字。如何使用 removeNumbers 函数删除
我是一名优秀的程序员,十分优秀!