gpt4 book ai didi

R文本文件和文本挖掘...如何加载数据

转载 作者:行者123 更新时间:2023-12-03 14:35:27 24 4
gpt4 key购买 nike

我正在使用 R 包 tm我想做一些文本挖掘。这是一个文档,被视为一袋单词。

我不了解有关如何加载文本文件和创建必要对象以开始使用诸如...等功能的文档。

stemDocument(x, language = map_IETF(Language(x)))

所以假设这是我的文档“这是对 R 负载的测试”

如何加载用于文本处理的数据并创建对象 x?

最佳答案

像@richiemorrisroe 一样,我发现这个记录很差。以下是我如何让我的文本与 tm 包一起使用并制作文档术语矩阵:

library(tm) #load text mining library
setwd('F:/My Documents/My texts') #sets R's working directory to near where my files are
a <-Corpus(DirSource("/My Documents/My texts"), readerControl = list(language="lat")) #specifies the exact folder where my text file(s) is for analysis with tm.
summary(a) #check what went in
a <- tm_map(a, removeNumbers)
a <- tm_map(a, removePunctuation)
a <- tm_map(a , stripWhitespace)
a <- tm_map(a, tolower)
a <- tm_map(a, removeWords, stopwords("english")) # this stopword file is at C:\Users\[username]\Documents\R\win-library\2.13\tm\stopwords
a <- tm_map(a, stemDocument, language = "english")
adtm <-DocumentTermMatrix(a)
adtm <- removeSparseTerms(adtm, 0.75)

在这种情况下,您不需要指定确切的文件名。只要它是第 3 行提到的目录中唯一的一个,它就会被 tm 函数使用。我这样做是因为我在第 3 行中指定文件名没有任何成功。

如果有人可以建议如何将文本放入 lda 包中,我将不胜感激。我根本无法解决这个问题。

关于R文本文件和文本挖掘...如何加载数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7927367/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com