gpt4 book ai didi

java - 如何在R语言tm(文本挖掘)包中使用stemDocument?

转载 作者:行者123 更新时间:2023-12-04 06:12:28 25 4
gpt4 key购买 nike

我试图在调用 Java 的 R 语言 tm 包中使用 stemDocument 来阻止语料库。
我已经尝试过 tm 手册中的示例:

data("crude")
crude[[1]]
stemDocument(crude[[1]])

并得到以下错误:
Could not initialize the GenericProperitiesCreator.  This exception was produced:  
java.lang.NullPointerException

任何帮助表示赞赏。我对Java一无所知。

谢谢

最佳答案

好问题,你解决了吗?

我只有您拥有的代码也遇到了同样的错误。但是,如果您从一开始就遵循该示例(即在标题“p. 1 上的转换”处)并创建一个语料库并将其转换为纯文本文档,那么您就可以避免 Java 错误。我猜 manual 中的代码示例假设您已经完成了这两个步骤。

也就是说,当我检查结果时,没有实际的词干...我什至无法得到@user813966 的 simple example的 stemDocument 进行任何词干提取。我正在查看 RStem 和 SnowBall 包。

与此同时,python package NLTK是我的词干提取工具。

更新 :我通过添加 language = "english" 使 stemDocument 功能正常工作如下:

a <- tm_map(a, stemDocument, language = "english") 

因此,您的问题的完整答案是按照 tm 包执行将文本输入 R 的所有步骤。您还需要 rJava(如果您在 Windows 中工作,还需要将 JAVA_HOME 的环境变量设置为包含 jre 目录的目录)以使 stemDocument 工作

关于java - 如何在R语言tm(文本挖掘)包中使用stemDocument?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7620449/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com