gpt4 book ai didi

r - 无法将语料库转换为 R 中的数据帧

转载 作者:行者123 更新时间:2023-12-04 11:30:20 26 4
gpt4 key购买 nike

我查看了此处发布的其他类似问题(如 this ),但问题仍然存在。

我有一个文本数据的数据框,我需要对其进行处理。所以我将它转换成一个语料库,对它进行词干化,然后从词干中完成单词,然后尝试获取文本数据框作为输出。

myCorpus <- Corpus(VectorSource(textDf$text))
myCorpus <- tm_map(myCorpus, removeWords, stopwords('english'))
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
myCorpus <- tm_map(myCorpus, removePunctuation)
dictCorpus <- myCorpus
myCorpus <- tm_map(myCorpus, stemDocument)
myCorpus <- tm_map(myCorpus, stemCompletion, dictionary=dictCorpus)

现在我试图从这个语料库中获取一个数据帧,所以我尝试了以下命令。
dataframe<-data.frame(text=unlist(sapply(myCorpus, '[', "content")),
stringsAsFactors=F)


dataframe<-data.frame(text=unlist(sapply(myCorpus, [ )), stringsAsFactors=F)
并且
dataframe <- 
data.frame(id=sapply(corpus, meta, "id"),
text=unlist(lapply(sapply(corpus, '[', "content"),paste,collapse="\n")),
stringsAsFactors=FALSE)

来自 this关联

所有这些都会产生以下错误:
Error in UseMethod("meta", x) : 
no applicable method for 'meta' applied to an object of class "character"

任何帮助将不胜感激。

最佳答案

这应该这样做:

data.frame(text = sapply(myCorpus, as.character), stringsAsFactors = FALSE)

用工作解决方案编辑 , 使用 crude作为例子

这里的问题是你不能申请 stemCompletion作为一种转变。
getTransformations()
## [1] "removeNumbers" "removePunctuation" "removeWords" "stemDocument" "stripWhitespace"

不包括 stemCompletion ,它将词干标记向量作为输入。

所以应该这样做:首先提取转换后的文本并标记它们,然后完成词干,然后粘贴回一起。在这里,我使用内置 crude 说明了解决方案语料库。
data(crude)
myCorpus <- crude
myCorpus <- tm_map(myCorpus, removeWords, stopwords('english'))
myCorpus <- tm_map(myCorpus, content_transformer(tolower))
myCorpus <- tm_map(myCorpus, removePunctuation)
dictCorpus <- myCorpus
myCorpus <- tm_map(myCorpus, stemDocument)
# tokenize the corpus
myCorpusTokenized <- lapply(myCorpus, scan_tokenizer)
# stem complete each token vector
myTokensStemCompleted <- lapply(myCorpusTokenized, stemCompletion, dictCorpus)
# concatenate tokens by document, create data frame
myDf <- data.frame(text = sapply(myTokensStemCompleted, paste, collapse = " "), stringsAsFactors = FALSE)

关于r - 无法将语料库转换为 R 中的数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33193152/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com