gpt4 book ai didi

machine-learning - Biggram 中包含 weka 中的停用词?

转载 作者:行者123 更新时间:2023-11-30 08:44:25 27 4
gpt4 key购买 nike

我正在 weka 中处理分类问题,并使用智能 524 个停用词列表。我在 weka 中使用 NGram 分词器。它正确过滤一元词中的停用词,但二元词包含停用词,即“东方”、“ window ”。

我之前假设 weka 可能会首先过滤文本文档中的所有停用词,然后将它们转换为一元组和二元组,但事实并非如此。

是否有办法从二元组中删除停用词,也许我可能需要另一个二元组的停用词文件?

从二元组中删除停用词会提高分类器性能吗?

最佳答案

我猜您可能正在使用 StringToWordVector 过滤器来获取二元组。如果这是您的情况,过滤器会将功能(在您的情况下为二元组)与停止列表中的元素进行比较。如果您的停用词列表由单个单词组成,则任何二元语法和任何停用词之间都不存在等效项,因此不会删除任何单词。如果您想从二元语法中删除停用词,则必须在应用 StringToWordVector 过滤器之前自行执行此操作。删除停用词的效率取决于具体情况,因此我建议您自己进行测试。弗朗西斯科

关于machine-learning - Biggram 中包含 weka 中的停用词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21340357/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com