r - 大文本语料库打破了tm

r - 大文本语料库打破了tm_map

转载作者：行者123 更新时间：2023-12-04 13:32:02

25

4

在过去的几天里，我一直在为这个问题努力。我搜索了所有的SO文件，并尝试了建议的解决方案，但似乎无法正常工作。我在2000 06、1995 -99等文件夹中有txt文档集，并且想要运行一些基本的文本挖掘操作，例如创建文档术语矩阵和术语文档矩阵，以及基于单词的共置位置进行一些操作。我的脚本适用于较小的语料库，但是，当我尝试使用较大的语料库时，它会使我失望。我已经粘贴了一种此类文件夹操作的代码。

library(tm) # Framework for text mining.
library(SnowballC) # Provides wordStem() for stemming.
library(RColorBrewer) # Generate palette of colours for plots.
library(ggplot2) # Plot word frequencies.
library(magrittr)
library(Rgraphviz)
library(directlabels)

setwd("/ConvertedText")
txt <- file.path("2000 -06")

docs<-VCorpus(DirSource(txt, encoding = "UTF-8"),readerControl = list(language = "UTF-8"))
docs <- tm_map(docs, content_transformer(tolower), mc.cores=1)
docs <- tm_map(docs, removeNumbers, mc.cores=1)
docs <- tm_map(docs, removePunctuation, mc.cores=1)
docs <- tm_map(docs, stripWhitespace, mc.cores=1)
docs <- tm_map(docs, removeWords, stopwords("SMART"), mc.cores=1)
docs <- tm_map(docs, removeWords, stopwords("en"), mc.cores=1)
#corpus creation complete

setwd("/ConvertedText/output")
dtm<-DocumentTermMatrix(docs)
tdm<-TermDocumentMatrix(docs)
m<-as.matrix(dtm)
write.csv(m, file="dtm.csv")
dtms<-removeSparseTerms(dtm, 0.2)
m1<-as.matrix(dtms)
write.csv(m1, file="dtms.csv")
# matrix creation/storage complete

freq <- sort(colSums(as.matrix(dtm)), decreasing=TRUE)
wf <- data.frame(word=names(freq), freq=freq)
freq[1:50]
#adjust freq score in next line
p <- ggplot(subset(wf, freq>100), aes(word, freq))+ geom_bar(stat="identity")+ theme(axis.text.x=element_text(angle=45, hjust=1))
ggsave("frequency2000-06.png", height=12,width=17, dpi=72)
# frequency graph generated


x<-as.matrix(findFreqTerms(dtm, lowfreq=1000))
write.csv(x, file="freqterms00-06.csv")
png("correlation2000-06.png", width=12, height=12, units="in", res=900)
graph.par(list(edges=list(col="lightblue", lty="solid", lwd=0.3)))
graph.par(list(nodes=list(col="darkgreen", lty="dotted", lwd=2, fontsize=50)))
plot(dtm, terms=findFreqTerms(dtm, lowfreq=1000)[1:50],corThreshold=0.7)
dev.off()

当我在tm_map中使用mc.cores = 1参数时，该操作将无限期地继续。但是，如果我在tm_map中使用lazy = TRUE参数，则看似运行良好，但是后续操作会出现此错误。

Error in UseMethod("meta", x) : 
  no applicable method for 'meta' applied to an object of class "try-error"
In addition: Warning messages:
1: In mclapply(x$content[i], function(d) tm_reduce(d, x$lazy$maps)) :
  all scheduled cores encountered errors in user code
2: In mclapply(unname(content(x)), termFreq, control) :
  all scheduled cores encountered errors in user code

我一直在寻找解决方案，但一直失败。任何帮助将不胜感激!

最好的!
ķ

最佳答案

我找到了可行的解决方案。

背景/调试步骤

我尝试了几种无效的方法:

将“content_transformer”添加到某个tm_map，甚至添加到一个(塔式)

在tm_map

中添加“lazy = T”

尝试了一些并行计算软件包

虽然它不适用于我的两个脚本，但每次都适用于第三个脚本。但是，这三个脚本的代码都是相同的，只是我加载的.rda文件的大小不同。这三个文件的数据结构也相同。

数据集1:大小-493.3KB =错误

数据集2:大小-630.6KB =错误

数据集3:大小-300.2KB =有效!

只是很奇怪。

我的 sessionInfo()输出:

R version 3.1.2 (2014-10-31)
Platform: x86_64-apple-darwin13.4.0 (64-bit)

locale:
[1] de_DE.UTF-8/de_DE.UTF-8/de_DE.UTF-8/C/de_DE.UTF-8/de_DE.UTF-8

attached base packages:
[1] stats     graphics  grDevices utils     datasets  methods   base     

other attached packages:
[1] snowfall_1.84-6    snow_0.3-13        Snowball_0.0-11    RWekajars_3.7.11-1 rJava_0.9-6              RWeka_0.4-23      
[7] slam_0.1-32        SnowballC_0.5.1    tm_0.6             NLP_0.1-5          twitteR_1.1.8      devtools_1.6      

loaded via a namespace (and not attached):
[1] bit_1.1-12     bit64_0.9-4    grid_3.1.2     httr_0.5       parallel_3.1.2 RCurl_1.95-4.3    rjson_0.2.14   stringr_0.6.2 
[9] tools_3.1.2

解决方案

我只是在加载数据后添加了这一行，现在一切正常:

MyCorpus <- tm_map(MyCorpus,
                     content_transformer(function(x) iconv(x, to='UTF-8-MAC', sub='byte')),
                     mc.cores=1)

在此处找到了提示: http://davetang.org/muse/2013/04/06/using-the-r_twitter-package/(由于错误，作者于2014年11月26日更新了代码)。

关于r - 大文本语料库打破了tm_map，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/26834576/

25

4

0

文章推荐： wpf - DataGridTextColumn 标题数据模板

文章推荐： virtual-machine - Vagrant 的停止不起作用

文章推荐：反向计分项目

文章推荐： sql - 如何将 cte 值分配给变量

r - txt : corpus() only works on character, 语料库、语料库、data.frame、kwic对象读取中文出错
我尝试使用R，jiebaR和语料库为中文语音生成词云并获取词频，但无法制作语料库。这是我的代码: library(jiebaR) library(stringr) library(corpus) cu
R 提取字符串/文档/语料库
我试图在 R 中做一些词干化，但它似乎只适用于单个文档。我的最终目标是一个术语文档矩阵，它显示文档中每个术语的频率。下面是一个例子: require(RWeka) require(tm) requi
nlp - Wordnet(词义注释)语料库
我一直在利用许多不同的语料库进行自然语言处理，并且我一直在寻找使用 Wordnet Word Senses 注释的语料库。我知道可能没有一个包含这些信息的大语料库，因为语料库需要手动构建，但必须有一
python - 导入和使用 NLTK 语料库
请，请，请帮助。我有一个文件夹，里面装满了我想使用 NLTK 进行分析的文本文件。我如何将其导入为语料库，然后在其上运行 NLTK 命令？我已经将下面的代码放在一起，但它给了我这个错误: ra
python - 编辑 NLTK 语料库
除了nltk自带的语料库之外，我想用自己的遵循相同词性规则的语料库来训练它。如何找到它正在使用的语料库，以及如何添加我自己的语料库(另外，不是作为替代)？编辑:这是我当前使用的代码: inpy =
python - nltk 语料库 tweeter_sample 按类别
我想使用 tweeter_sample 语料库训练 nltk，但当我尝试按类别加载示例时出现错误。首先我尝试这样: from nltk.corpus import twitter_samples d
python - nltk 语料库 tweeter_sample 按类别
我想使用 tweeter_sample 语料库训练 nltk，但当我尝试按类别加载示例时出现错误。首先我尝试这样: from nltk.corpus import twitter_samples d
python - 从大文本文件中过滤停用词(使用包 : nltk. 语料库)
我正在尝试对大型文本文件中最常用的词进行排名 - - 爱丽丝梦游仙境(公共(public)领域)。这是爱丽丝梦游仙境 Dropbox和 Pastebin .它按预期运行，有 1818 个“the”实例
python - 将 Lilypond 文件导入本地 music21 语料库
我希望对一些本地 Lilypond (.ly) 文件进行语料库研究，但我无法将它们导入本地 music21 语料库。我只能假设答案在 music21.converter 上页面，但我似乎无法解开它。
nlp - 是否可以将单词附加到现有的 OpenNLP POS 语料库/模型？
有没有办法训练现有的 Apache OpenNLP POS Tagger 模型？我需要为特定于我的应用程序的模型添加更多专有名词。当我尝试使用以下命令时: opennlp POSTaggerTrain
python - 在 python 中创建一个 "virtual"语料库
我需要从一个巨大的数据帧(或任何与 r 数据帧等效的 python)创建一个语料库，方法是将它分成与用户名一样多的数据帧。例如，我从这样的数据框开始: username search_term
python - 使用 NLTK 导入外部树库式 BLLIP 语料库
我已经下载了 BLLIP语料库并想将其导入 NLTK。问题的答案中描述了我发现的一种方法 How to read corpus of parsed sentences using NLTK in py
r - 如何从具有多列文本的 data.frame 创建 quanteda 语料库？
假设我有以下内容: x10 = data.frame(id = c(1,2,3),vars =c('top','down','top'), text1=c('this is text','s
r - 如何制作 1 亿条推文的 R tm 语料库？
我想使用 R 的分布式计算 tm 包(称为 tm.plugin.dc)制作一个包含 1 亿条推文的文本语料库。这些推文存储在我笔记本电脑上的一个大型 MySQL 表中。我的笔记本电脑很旧，所以我使用的
installation - 以编程方式安装 NLTK 语料库/模型，即无需 GUI 下载器？
我的项目使用NLTK。如何列出项目的语料库和模型要求以便自动安装它们？我不想点击 nltk.download() GUI，一一安装软件包。此外，有什么方法可以卡住相同的需求列表(例如pip free
pytorch - 如何将 .txt 文件(语料库)读入 pytorch 中的 torchtext？
如何在pytorrch中读入.txt文件(语料库)到torchtext？我只看到 data.Dataset 的示例数据集和 data.TabularData 的 csv、json 和 tsv。 ht
machine-learning - 如何在 python crfsuite 中使用 Conll 2003 语料库
我已经下载了 Conll 2003 语料库(“eng.train”)。我想用它来使用 python crfsuite 训练来提取实体。但我不知道如何加载这个文件进行训练。我找到了这个示例，但它不适用
python - 使用 NLTK ieer 或 conll2000 语料库训练 NER 语料库
我一直在尝试为特定领域和新实体训练命名实体识别模型。似乎没有一个完整的适合此的管道，并且需要使用不同的包。我想给NLTK一个机会。我的问题是，如何训练 NLTK NER 使用 ieer 语料库对新实
python - 无法在 AWS EMR 上下载 nltk 语料库，对已关闭文件进行 I/O 操作
使用 JupyterLab 打开我的 EMR 集群后。我无法使用 nltk.download() 下载额外的语料库。代码 nltk.download('wordnet') 错误 I/O operat
NLP:构建(小型)语料库，或 "Where to get lots of not-too-specialized English-language text files?"
有没有人建议在哪里可以找到用于小型语料库的日常英语文本的文件或集合？我一直在使用 Gutenberg Project 书籍作为工作原型(prototype)，并希望融入更多现代语言。一个 recent

首页

博学

6Ren·AI

商城

r - 大文本语料库打破了tm_map