gpt4 book ai didi

java - 多标签文档分类

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:28:05 27 4
gpt4 key购买 nike

我有一个数据库,我在其中存储基于以下三个字段的数据:id、text、{labels}。请注意,每个文本都已分配给多个标签\标签\类。我想建立一个模型 (weka\rapidminer\mahout),它能够推荐\将一堆标签\标签\类分类到给定的文本。

我听说过 SVM 和朴素贝叶斯分类器,但不确定它们是否支持多标签分类。任何引导我走向正确方向的东西都非常受欢迎!

最佳答案

基本的多标签分类方法是one-vs.-the-rest (OvR),也称为二进制相关性(BR)。基本思想是您采用现成的二元分类器,例如朴素贝叶斯或支持 vector 机,然后创建它的 K 个实例来解决 K 个独立的分类问题.在类似 Python 的伪代码中:

for each class k:
learner = SVM(settings) # for example
labels = [class_of(x) == k for x in samples]
learner.learn(samples, labels)

然后在预测时,您只需在样本上运行每个二元分类器并收集它们预测为阳性的标签。

(训练和预测显然可以并行完成,因为假定问题是独立的。有关两个执行多标签分类的 Java 包的链接,请参阅 Wikipedia。)

关于java - 多标签文档分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16673347/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com