gpt4 book ai didi

r - Twitter数据分析-术语文档矩阵中的错误

转载 作者:行者123 更新时间:2023-12-04 04:50:04 24 4
gpt4 key购买 nike

尝试对Twitter数据进行一些分析。下载推文并使用以下内容从推文中创建语料库

# Creating a Corpus
wim_corpus = Corpus(VectorSource(wimbledon_text))

在尝试如下创建TermDocumentMatrix时,出现错误和警告。
tdm = TermDocumentMatrix(wim_corpus, 
control = list(removePunctuation = TRUE,
stopwords = TRUE,
removeNumbers = TRUE, tolower = TRUE))

Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 'i, j, v' different lengths


In addition: Warning messages:
1: In parallel::mclapply(x, termFreq, control) :
all scheduled cores encountered errors in user code
2: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
3: In TermDocumentMatrix.VCorpus(corpus) : invalid document identifiers
4: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), :
NAs introduced by coercion

谁能指出这个错误表示什么?这可能与tm软件包有关吗?

tm库已导入。
我正在使用R版本:R 3.0.1和RStudio:0.97

最佳答案

我遇到了同样的问题,事实证明这是软件包兼容性的问题。尝试安装

install.packages("SnowballC")

并加载
library(SnowballC)

在调用DocumentTermMatrix之前。

它解决了我的问题。

关于r - Twitter数据分析-术语文档矩阵中的错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18504559/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com