gpt4 book ai didi

RTextTools create_matrix 返回非字符参数错误

转载 作者:行者123 更新时间:2023-12-04 11:10:06 26 4
gpt4 key购买 nike

我是 R 文本处理的新手。我正在尝试下面的简单代码
library(RTextTools)
texts <- c("This is the first document.", "This is the second file.", "This is the third text.")
matrix <- create_matrix(texts,ngramLength=3)

这是问题 Finding 2 & 3 word Phrases Using R TM Package 中的答案之一

但是,它给出了错误 Error in FUN(X[[2L]], ...) : non-character argument反而。

当我删除 ngramLength 时,我可以生成文档术语矩阵参数,但我确实需要搜索特定字长的短语。任何替代或更正的建议?

最佳答案

ngramLength 似乎不起作用。这是一个解决方法:

library(RTextTools)
library(tm)
library(RWeka) # this library is needed for NGramTokenizer
library
texts <- c("This is the first document.",
"Is this a text?",
"This is the second file.",
"This is the third text.",
"File is not this.")
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
dtm <- DocumentTermMatrix(Corpus(VectorSource(texts)),
control=list(
weighting = weightTf,
tokenize = TrigramTokenizer))

as.matrix(dtm)

分词器使用 RWekaNGramTokenizer而不是 create_matrix 调用的标记器.您现在可以使用 dtm在其他 RTextTools 函数中,例如训练下面的分类模型:
isText <- c(T,F,T,T,F)
container <- create_container(dtm, isText, virgin=F, trainSize=1:3, testSize=4:5)

models=train_models(container, algorithm=c("SVM","BOOSTING"))
classify_models(container, models)

关于RTextTools create_matrix 返回非字符参数错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25054617/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com