gpt4 book ai didi

python - 具有大量意图类别的意图分类

转载 作者:行者123 更新时间:2023-12-05 04:01:54 25 4
gpt4 key购买 nike

我正在处理一个包含大约 3000 个问题的数据集,我想执行意图分类。 数据集还没有标注,但从业务的角度来看,需要识别大约80个不同的意图类。假设我的训练数据中每个类别的数量大致相等,并且不会主要偏向某些类别。我打算将文本转换为 word2vec 或 Glove,然后输入我的分类器。

我熟悉我有较少数量的意图类的情况,例如 8 或 10 以及机器学习分类器的选择,例如 SVM、naive bais 或深度学习(CNN 或 LSTM)。

我的问题是,如果您之前有过如此大量的意图类的经验,您认为哪种机器学习算法的性能会比较合理?你认为如果我使用深度学习框架,在给定上述训练数据的情况下,仍然有大量标签会导致性能不佳吗?

我们需要开始标记数据,想出 80 类标签然后意识到它表现不佳是相当费力的,所以我想确保我在如何做出正确的决定许多类别的最大意图我应该考虑,您建议使用哪种机器学习算法?

提前致谢...

最佳答案

首先,word2vec 和 GloVe 几乎已经死了。您可能应该考虑使用更新的嵌入,如 BERT 或 ELMo(它们都对上下文敏感;换句话说,您在不同的上下文中为同一个词获得不同的嵌入)。目前,BERT 是我个人的偏好,因为它完全开源且可用(gpt-2 前几天发布,显然好一点。但是,它还没有完全向公众开放)。

其次,当您使用 BERT 的预训练嵌入时,您的模型具有看到大量文本(Google 海量)的优势,因此可以在少量数据上进行训练,这将大大提高它的性能。

最后,如果您可以将您的意图分类为一些粗粒度的类,您可以训练一个分类器来指定您的实例属于这些粗粒度类中的哪一个。然后,为每个粗粒度类训练另一个分类器来指定细粒度类。这种层次结构可能会改善结果。同样对于分类器的类型,我相信在 BERT 之上的一个简单的全连接层就足够了。

关于python - 具有大量意图类别的意图分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54850657/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com