gpt4 book ai didi

java - 精细文本分类 - 什么算法?

转载 作者:搜寻专家 更新时间:2023-11-01 01:35:32 25 4
gpt4 key购买 nike

我希望实现一个包含大约 150 个类别的分类器(可能在 Java 中),主要用于推文(非常小的文档)。一些类具有非常相似的域,例如。 “公司”、“竞争”、“消费者”、“国际法”、“国际组织”、“国际政治与政府”。当需要如此高分辨率时,哪种算法/方法最好?我已经尝试过朴素贝叶斯 (obv),但到目前为止它的表现不是很好(尽管这可能只是由于训练数据的质量)。非常欢迎社区的想法!

谢谢,

标记

最佳答案

提出一个从(可能很多)级别的子分类器构建的层次分类器可能是值得的(即,为您的文档标签提出一个分类法)。

单一分类器

single classifier with many possible class labels

单个分类器可以输出许多可能的类标签中的任何一个。

层次分类器

hierarchical classifier

层次分类器将相关的类标签组合在一起,并执行额外的分类层,直到到达叶节点(或直到置信度降至特定阈值以下)。

直觉

直觉是,当类别数量较少时,分类器将更容易学习判别特征。

例如,分层分类器可能更容易学习 player 是表示运动的良好特征,而如果 player,则单个分类器会更难学习> 只在一个类别(篮球)中出现,在另一个类别(曲棍球)中没有出现。

关于java - 精细文本分类 - 什么算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16317893/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com