gpt4 book ai didi

r - 从 R 中的 TM 导出语料库

转载 作者:行者123 更新时间:2023-12-04 10:44:05 25 4
gpt4 key购买 nike

我正在尝试导出 Corpus对象从 R 到静态文件。语料库包含通过解析文件系统中现有的预处理文件创建的词干文档。作者在他的“R 中的文本挖掘简介”(第 2 页)中描述了一种方法,建议

> writeCorpus(file)

但到目前为止,我的尝试仅产生以下结果:
Error in UseMethod("as.PlainTextDocument", x):
no applicable method for 'as.PlainTextDocument' applied to an object of class "character"

到目前为止,我的脚本非常简单,我希望这可能是一个简单的疏忽。非常感谢任何建议:这似乎是边缘问题。
# Turn off Java so it doesn't interfere with Weka interface
Sys.setenv(NOAWT=1)

# Load required text mining packages
require(tm)
require(rJava)
require(RWeka)
require(Snowball)

# Populate a vector with the number of subdirectories in preprocessed dir
preprocessed <- list.files(path="preprocessed_dir", include.dirs=TRUE, full.names=TRUE)

# For each element in the vector
for(i in 1:length(preprocessed)) {
# Get the files in each subdirectory by appending a number to the absolute path
files <- list.files(sprintf("preprocessed_dir/%.0f", i))
# Create a Corpus object of all the files in the subdirectory
corpora <- Corpus(VectorSource(files))
# Stem the words in the Corpus object
corpora <- tm_map(corpora, SnowballStemmer)
# (Try to) write the object to the file system
writeCorpus(corpora)
}

FWIW:调用 class(corpora)返回 [1] "VCorpus" "Corpus" "list"所以这些对象显然不是 character 类型的

最佳答案

我正在解释为什么要导出语料库。如果您想将文本显示给其他人,您可以使用原始文本。

如果您想将其导出并与 R 重用,我的建议是您可以使用函数 save() 将语料库保存到 .RData 中。

然后如果你想加载它,只需使用 load() 函数。

关于r - 从 R 中的 TM 导出语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15122170/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com