gpt4 book ai didi

machine-learning - 如何防止 weka 中的雪球词干分析器将 "awful"词干提取到 "aw"?

转载 作者:行者123 更新时间:2023-11-30 09:19:55 32 4
gpt4 key购买 nike

我正在使用 Weka 对 2000 条 IMBD 电影评论进行分类。我正在关注以下教程:http://www.stefanoscerra.it/movie-reviews-classification-weka-data-mining/

每当我进行词干提取时,“awful”这个词就会词干为“aw”。我什至尝试过附带的 LovinsStemmer 并得到了相同的结果。提到的页面中的教程,仍然在做词干部分,但他在属性列表中有“糟糕”这个词。

StringtoWordVector

attributes

另外,我是 Weka 新手,所以可能我对雪球词干分析器的实现不正确。我刚刚下载了这个 jar 文件:http://weka.wikispaces.com/file/view/snowball-20051019.jar/82917267/snowball-20051019.jar

我像这样设置类路径:java -classpath“weka.jar: Snowball-20051019.jar”weka.gui.GUIChooser

最佳答案

在您的数据集中,单词“awful”位于第 237 列。要从筛选操作中忽略它,请在属性“attributeIndices”中将“first-last”更改为 1-236,238-last 。 (未经测试,超出我的想象)

关于machine-learning - 如何防止 weka 中的雪球词干分析器将 "awful"词干提取到 "aw"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43795475/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com