gpt4 book ai didi

machine-learning - 用于文本分类的数据增强

转载 作者:行者123 更新时间:2023-11-30 09:44:02 24 4
gpt4 key购买 nike

当前最先进的文本分类数据增强技术是什么?

我在网上做了一些研究,了解如何通过进行一些数据转换来扩展我的训练集,就像我们在图像分类上所做的那样。我发现了一些有趣的想法,例如:

  • 同义词替换:从不停止单词的句子中随机选择n个单词。将这些单词中的每一个替换为随机选择的同义词之一。

  • 随机插入:在句子中查找非停用词的随机单词的随机同义词。将该同义词插入句子中的随机位置。这样做n次。

  • 随机交换:随机选择句子中的两个单词并交换它们的位置。这样做n次。

  • 随机删除:以概率 p 随机删除句子中的每个单词。

但没有提及使用预训练的词向量表示模型(例如 word2vec)。有什么原因吗?

使用 word2vec 进行数据增强可能有助于模型根据外部信息获取更多数据。例如,将句子中的有毒评论标记随机替换为专门针对外部在线评论训练的预训练向量空间中更接近的标记。

这是一个好方法还是我错过了该技术的一些重要缺点?

最佳答案

您使用 word2vec 嵌入的想法通常会有所帮助。然而,这是上下文无关的嵌入。更进一步,截至目前(2019-02)的最先进技术(SOTA)是使用在大型文本语料库上训练的语言模型,并使用您自己的训练数据微调您自己的分类器。

这两个 SOTA 模型是:

您提到的这些数据增强方法可能也会有所帮助(取决于您的领域和您拥有的训练示例的数量)。其中一些实际上用于语言模型训练(例如,在 BERT 中,有一项任务是在预训练时随机屏蔽句子中的单词)。如果我是你,我会首先采用预先训练的模型,并使用当前的训练数据微调你自己的分类器。以此为基准,您可以尝试每种您喜欢的数据增强方法,看看它们是否真的有帮助。

关于machine-learning - 用于文本分类的数据增强,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54797225/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com