gpt4 book ai didi

R tm removeWords 停用词不删除停用词

转载 作者:行者123 更新时间:2023-12-02 08:43:09 24 4
gpt4 key购买 nike

我正在使用 R tm 包,发现几乎没有一个删除文本元素的 tm_map 函数对我有用。

“工作”是指例如,我将运行:

d <- tm_map(d, removeWords, stopwords('english'))

但是当我运行的时候

ddtm <- DocumentTermMatrix(d, control = list(
weighting = weightTfIdf,
minWordLength = 2))
findFreqTerms(ddtm, 10)

我仍然得到:

[1] the     this

...等等,以及一些其他停用词。

我没有看到表明出现问题的错误。有谁知道这是什么,以及如何正确执行停用词删除功能,或诊断我出了什么问题?

更新

之前有一个我没有发现的错误:

Refreshing GOE props...
---Registering Weka Editors---
Trying to add database driver (JDBC): RmiJdbc.RJDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): jdbc.idbDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.gjt.mm.mysql.Driver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): com.mckoi.JDBCDriver - Warning, not in CLASSPATH?
Trying to add database driver (JDBC): org.hsqldb.jdbcDriver - Warning, not in CLASSPATH?
[KnowledgeFlow] Loading properties and plugins...
[KnowledgeFlow] Initializing KF...

是 Weka 正在删除 tm 中的停用词,对吗?所以这可能是我的问题?

更新 2

来自 this ,此错误似乎无关。这是关于数据库,而不是停用词。

最佳答案

没关系,它正在工作。我做了以下最小示例:

data("crude")
crude[[1]]
j <- Corpus(VectorSource(crude[[1]]))
jj <- tm_map(j, removeWords, stopwords('english'))
jj[[1]]

我已经连续使用了多个 tm_map 表达式。事实证明,我删除空格、标点符号等的顺序已经连接了新的停用词。

关于R tm removeWords 停用词不删除停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14757489/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com