gpt4 book ai didi

machine-learning - 具有零个或多个标签的多标签文本分类

转载 作者:行者123 更新时间:2023-11-30 09:52:04 25 4
gpt4 key购买 nike

我需要对具有零个或多个类别/标签(5 个标签,例如金融、技术等)的网站文本进行分类。我的问题是处理不属于这些标签之一的文本。

我尝试了 ML 库(maxent、朴素贝叶斯),但它们将“其他”文本与其中一个标签错误匹配。如何训练模型来处理“其他”文本? “其他”标签太宽泛,不可能选出有代表性的样本。

由于我没有 ML 背景,也没有太多时间来构建良好的训练集,因此我更喜欢更简单的方法,例如术语频率计数,使用预定义的术语列表来匹配每个标签。但是通过计数,我如何确定相关性分数,即文本是否实际上是该标签?我没有语料库,无法使用tf-idf等。

最佳答案

另一个想法是使用带有softmax输出函数的神经网络,softmax会给你每个类的概率,当网络对一个类非常有信心时,会给它一个高概率,而给其他类较低的概率,但如果它不安全,概率之间的差异会很小,而且都不会很高,如果你定义一个阈值,比如:如果每个类别的概率小于 70%,则预测“其他”

关于machine-learning - 具有零个或多个标签的多标签文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43549333/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com