gpt4 book ai didi

algorithm - 哪种分类算法可用于文档分类?

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:36:12 25 4
gpt4 key购买 nike

嘿,这是我的问题,

给定一组文档,我需要将每个文档分配给一个预定义的类别。

我打算使用 n-gram 方法来表示每个文档的文本内容,然后在我拥有的训练数据上训练 SVM 分类器。
如果我错过了什么请纠正我。

现在的问题是类别应该是动态的。意思是,我的分类器应该处理新类别的新训练数据。

例如,如果我训练了一个分类器将给定的文档分类为 A 类、B 类或 C 类,然后我得到了 D 类的新训练数据。我应该能够通过为“类别 D”提供新的训练数据来逐步训练我的分类器。

总而言之,我不想结合旧的训练数据(有 3 个类别)和新的训练数据(有新的/未见过的类别)并再次训练我的分类器。我想即时训练我的分类器

这可以用 SVM 实现吗?如果没有,你能给我推荐几种分类算法吗?或任何可以帮助我的书/论文。

提前致谢。

最佳答案

Naive-Bayes是比较快的增量分类算法。
KNN本质上也是渐进的,并且更易于实现和理解。

两种算法均在开源项目中实现Weka作为NaiveBayesIBk对于 KNN。

然而,根据个人经验——它们都容易受到大量非信息特征的影响(文本分类通常就是这种情况),因此通常会使用某种特征选择来从这些算法中获得更好的性能,以增量方式实现可能会有问题。

关于algorithm - 哪种分类算法可用于文档分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12031477/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com