作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在 weka 中处理分类问题,并使用智能 524 个停用词列表。我在 weka 中使用 NGram 分词器。它正确过滤一元词中的停用词,但二元词包含停用词,即“东方”、“ window ”。
我之前假设 weka 可能会首先过滤文本文档中的所有停用词,然后将它们转换为一元组和二元组,但事实并非如此。
是否有办法从二元组中删除停用词,也许我可能需要另一个二元组的停用词文件?
从二元组中删除停用词会提高分类器性能吗?
最佳答案
我猜您可能正在使用 StringToWordVector
过滤器来获取二元组。如果这是您的情况,过滤器会将功能(在您的情况下为二元组)与停止列表中的元素进行比较。如果您的停用词列表由单个单词组成,则任何二元语法和任何停用词之间都不存在等效项,因此不会删除任何单词。如果您想从二元语法中删除停用词,则必须在应用 StringToWordVector
过滤器之前自行执行此操作。删除停用词的效率取决于具体情况,因此我建议您自己进行测试。弗朗西斯科
关于machine-learning - Biggram 中包含 weka 中的停用词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21340357/
我正在 weka 中处理分类问题,并使用智能 524 个停用词列表。我在 weka 中使用 NGram 分词器。它正确过滤一元词中的停用词,但二元词包含停用词,即“东方”、“ window ”。 我之
我是一名优秀的程序员,十分优秀!