machine-learning - Biggram 中包含 weka 中的停用词？-6ren

machine-learning - Biggram 中包含 weka 中的停用词？

转载作者：行者123 更新时间：2023-11-30 08:44:25

我正在 weka 中处理分类问题，并使用智能 524 个停用词列表。我在 weka 中使用 NGram 分词器。它正确过滤一元词中的停用词，但二元词包含停用词，即“东方”、“ window ”。

我之前假设 weka 可能会首先过滤文本文档中的所有停用词，然后将它们转换为一元组和二元组，但事实并非如此。

是否有办法从二元组中删除停用词，也许我可能需要另一个二元组的停用词文件？

从二元组中删除停用词会提高分类器性能吗？

最佳答案

我猜您可能正在使用 StringToWordVector 过滤器来获取二元组。如果这是您的情况，过滤器会将功能(在您的情况下为二元组)与停止列表中的元素进行比较。如果您的停用词列表由单个单词组成，则任何二元语法和任何停用词之间都不存在等效项，因此不会删除任何单词。如果您想从二元语法中删除停用词，则必须在应用 StringToWordVector 过滤器之前自行执行此操作。删除停用词的效率取决于具体情况，因此我建议您自己进行测试。弗朗西斯科

关于machine-learning - Biggram 中包含 weka 中的停用词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21340357/