gpt4 book ai didi

r - 在 R 中使用 TM 包的 VCorpus 时遇到错误

转载 作者:行者123 更新时间:2023-12-04 05:36:27 25 4
gpt4 key购买 nike

我在使用 R 处理 TM 包时遇到以下错误。

library("tm")
Loading required package: NLP
Warning messages:
1: package ‘tm’ was built under R version 3.4.2
2: package ‘NLP’ was built under R version 3.4.1
corpus <- VCorpus(DataframeSource(data))

Error: all(!is.na(match(c("doc_id", "text"), names(x)))) is not TRUE



尝试了各种方法,例如重新安装软件包,使用新版本的 R 更新,但错误仍然存​​在。对于相同的数据文件,相同的代码在具有相同 R 版本的另一个系统上运行。

最佳答案

我在更新 tm 时遇到了同样的问题打包到 0.7-2 版本。
我找了DataframeSource()的详情,它提到:

The first column must be named "doc_id" and contain a unique string identifier for each document. The second column must be named "text".



细节

A data frame source interprets each row of the data frame x as a document. The first column must be named "doc_id" and contain a unique string identifier for each document. The second column must be named "text" and contain a "UTF-8" encoded string representing the document's content. Optional additional columns are used as document level metadata.



我用以下代码解决了它:
df_cmp<- read.csv("test_file.csv",stringsAsFactors = F)

df_title <- data.frame(doc_id=row.names(df_cmp),
text=df_cmp$English.title)

您可以尝试将列名更改为 doc_idtext .

关于r - 在 R 中使用 TM 包的 VCorpus 时遇到错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47406555/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com