gpt4 book ai didi

python - 每个训练数据的类标签分布不均匀的多标签文本分类

转载 作者:行者123 更新时间:2023-12-01 06:42:47 25 4
gpt4 key购买 nike

我有一个多标签分类问题,我想用六个标签对文本进行分类,每个文本可以有一到六个标签,但这个标签分布不相等。例如,10个人对sentence1进行了如下注释:

enter image description here

这些标签是该类别的投票数。我可以将它们标准化,例如悲伤 0.7、愤怒 0.2、恐惧 0.1、快乐 0.0,...

对于这个问题最好的分类器是什么?我的意思是我应该将它们规范化还是不规范化标签的最佳类型是什么?

对于这种标签概率不等的多标签分类问题,我该搜索什么关键词呢?

最佳答案

首先,澄清一下我是否正确理解了您的问题。你有句子=[sent1,sent2,...sentn]并且你想将它们分类为这六个标签labels=[l1,l2,...,l6]。您的数据不是标签本身,而是文本中包含该标签的概率。您还提到这六个标签来自人工注释(我不知道您说的 10 个人评论是什么意思,我猜是注释)

如果是这种情况,你可以用多标签分类或多目标回归的视角来处理问题。我将介绍您可以在两种情况下如何处理数据:

  1. 多标签分类:在这种情况下,您需要为每个句子定义类别,以便训练模型。现在你只有概率。您可以通过创建阈值来做到这一点,并且高于阈值的标签的概率可以被视为句子的标签。您可以阅读有关评估指标的更多信息 here .
  2. 多目标回归:在这种情况下,您不需要定义类别,只需使用训练输入,我们使用数据来预测每个标签的概率。考虑到您的数据收集,我认为这是一个更好、更容易的问题。如果你想了解更多关于多目标回归的问题,可以阅读更多相关内容here ,但他们在本教程中使用的模型并不是最先进的(请注意)。

训练模型:您可以使用浅层模型和深层模型来完成此任务。您需要一个可以接收句子作为输入并预测六个标签或六个概率的模型。我建议你看看这个example ,这可能是您工作的一个非常好的起点。作者提供了有关如何使用深度神经网络构建多标签文本分类器的教程。他最后基本上构建了一个 LSTM 和一个前馈层来对标签进行分类。如果您决定使用回归而不是分类,则可以在最后删除激活。

最好的结果很可能是通过深度神经网络获得的,所以我发给你的文章可以很好地工作。我还建议您了解最先进的文本分类方法,例如 BERT 或 XLNET。我使用 BERT 实现了多标签分类方法,也许对你有帮助。

关于python - 每个训练数据的类标签分布不均匀的多标签文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59372071/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com