gpt4 book ai didi

r - 包 tm 停止字参数

转载 作者:行者123 更新时间:2023-12-02 02:56:50 25 4
gpt4 key购买 nike

我正在尝试使用包 tm 从以下文档中过滤停用词。

library(tm)
documents <- c("the quick brown fox jumps over the lazy dog", "i am the walrus")
corpus <- Corpus(VectorSource(documents))
matrix <- DocumentTermMatrix(corpus,control=list(stopwords=TRUE))

但是,当我运行此代码时,我仍然在 DocumentTermMatrix 中得到以下内容。

colnames(matrix)
[1] "brown" "dog" "fox" "jumps" "lazy" "over" "quick" "the" "walrus"

“The”在包 tm 使用的列表中被列为停用词。我是否在 stopwords 参数方面做错了什么,或者这是 tm 包中的错误?

编辑:我联系了 Ingo Feinerer,他指出这在技术上不是一个错误:

User-provided options are processed first, and then all remaining options. Hence stopword removal is done before tokenization (as already written by Vincent Zoonekynd on stackoverflow.com) which gives exactly your result.

因此,解决方案是在 stopwords 参数之前显式列出默认标记化选项,例如:

library(tm)
documents <- c("the quick brown fox jumps over the lazy dog", "i am the walrus")
corpus <- Corpus(VectorSource(documents))
matrix <- DocumentTermMatrix(corpus,control=list(tokenize=scan_tokenizer,stopwords=TRUE))
colnames(matrix)

最佳答案

您还可以尝试在创建术语矩阵之前从语料库中删除停用词。

text_corpus <- tm_map(text_corpus, removeWords, stopwords("english"))
dtm <- DocumentTermMatrix(text_corpus)

这通常对我有用。

关于r - 包 tm 停止字参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9015389/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com