gpt4 book ai didi

machine-learning - 微调词嵌入是如何工作的?

转载 作者:行者123 更新时间:2023-11-30 08:26:28 24 4
gpt4 key购买 nike

我一直在阅读一些带有深度学习的 NLP 论文,发现微调似乎是一个简单但又令人困惑的概念。有人问过同样的问题here但还是不太清楚。

将预训练的词嵌入微调为特定于任务的词嵌入,如 Y 等论文中提到的。 Kim,“用于句子分类的卷积神经网络”,K. S. Tai、R. Socher 和 C. D. Manning,“树结构长短期内存网络的改进语义表示”,仅简单提及,而没有深入讨论任何细节。

我的问题是:

使用 word2vec 或 Glove 作为预训练词向量生成的词嵌入被用作解析或情感分析等下游任务的输入特征(X),这意味着这些输入向量被插入到新的神经网络模型中对于某些特定任务,在训练这个新模型时,我们可以以某种方式获得更新的特定于任务的词嵌入。

但据我所知,在训练过程中,反向传播所做的是更新模型的权重(W),它不会改变输入特征(X) ,那么原始词嵌入到底是如何微调的呢?这些经过微调的向量从何而来?

最佳答案

是的,如果您将嵌入向量作为输入,则无法微调嵌入(至少无法轻松调整)。然而,所有框架都提供某种EmbeddingLayer,它将作为单词/字符/其他输入标记的类序号的整数作为输入,并执行嵌入查找。这样的嵌入层与输入单热编码类的全连接层非常相似,但效率更高,因为它只需要在前传和后传中从矩阵中获取/更改一行。更重要的是,它允许学习嵌入的权重。

因此,经典的方法是将实际的类提供给网络而不是嵌入,并在整个网络前面添加一个嵌入层,该嵌入层使用 word2vec/glove 初始化,并继续学习权重。在开始微调它们之前,将它们卡住几次迭代也可能是合理的,直到网络的其余部分开始对它们进行合理的处理。

关于machine-learning - 微调词嵌入是如何工作的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40345607/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com