gpt4 book ai didi

R tm包vcorpus : Error in converting corpus to data frame

转载 作者:行者123 更新时间:2023-12-02 04:53:34 30 4
gpt4 key购买 nike

我正在使用 tm 包通过以下代码清理一些数据:

mycorpus <- Corpus(VectorSource(x))
mycorpus <- tm_map(mycorpus, removePunctuation)

然后,我想将语料库转换回数据框,以便导出包含数据框原始格式的数据的文本文件。我尝试过以下方法:

dataframe <- as.data.frame(mycorpus)

但这会返回一个错误:

"Error in as.data.frame.default.(mycorpus) : cannot coerce class "c(vcorpus, > corpus")" to a data.frame

如何将语料库转换为数据框?

最佳答案

你的语料库实际上只是一个带有一些额外属性的字符向量。因此最好将其转换为字符,然后您可以将其保存到 data.frame 中,如下所示:

library(tm)
x <- c("Hello. Sir!","Tacos? On Tuesday?!?")
mycorpus <- Corpus(VectorSource(x))
mycorpus <- tm_map(mycorpus, removePunctuation)

dataframe <- data.frame(text=unlist(sapply(mycorpus, `[`, "content")),
stringsAsFactors=F)

返回

              text
1 Hello Sir
2 Tacos On Tuesday

更新:随着 tm 的新版本,他们似乎更新了 as.list.SimpleCorpus 方法,这确实与使用 sapply 混淆了和lapply。现在我想你必须使用

dataframe <- data.frame(text=sapply(mycorpus, identity), 
stringsAsFactors=F)

关于R tm包vcorpus : Error in converting corpus to data frame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24703920/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com