gpt4 book ai didi

machine-learning - RNN Transducer 训练中的标签对齐

转载 作者:行者123 更新时间:2023-11-30 09:42:35 25 4
gpt4 key购买 nike

我试图了解 RNN Transducer 如何使用地面实况标签进行训练。就 CTC 而言,我知道该模型是使用损失函数进行训练的,该函数总结了地面真实标签所有可能对齐的所有分数。

但在 RNN-T 中,预测网络必须接收最后一步的输入才能产生类似于“教师强制”方法的输出。但我的疑问是,是否应该将真实标签转换为所有可能的带有空白标签的对齐方式,并通过“教师强制”方法将每个对齐方式馈送到网络?

最佳答案

RNN-T 具有转录网络(类似于声学模型)、预测网络(语言模型)和结合预测网络和转录网络输出的联合网络(/功能,取决于实现)。

在训练期间,您通过以下方式处理每个话语:

  • 通过转录网络传播所有 T 个声学帧并存储输出(转录网络隐藏状态)
  • 通过预测网络传播长度为 U 的真实标签序列,并在序列开头传入一个全零向量。请注意,此时您无需担心空白状态
  • 通过联合网络传播转录和预测网络隐藏状态的所有 T*U 组合,无论是按照 Graves (2012) 的简单求和和指数,还是按照最新的 Google ASR 出版物的前馈网络 (即:He et al. 2019)。

联合网络的 T*U 输出可以被视为一个网格,如 Graves 2012 的图 1 所示。然后可以使用前向-后向算法有效地实现损失函数(第 2.4 节,Graves 2012)。仅允许水平(消耗声学框架)和垂直(消耗标签)过渡。从t到t+1的步进类似于CTC中的空白状态,而在进行垂直转换时,即从输出标签u到u+1,输出非空白符号。请注意,您可以使用多个时间帧而不输出非空白符号(根据 CTC),但您也可以输出多个标签而不前进到 t。

为了更直接地回答您的问题,请注意,只有非空白输出会传递回预测网络的输入,并且转录和预测网络是异步运行的。

引用文献:

  • 使用循环神经网络进行序列转导,Graves,2012 年
  • 移动设备的流式端到端语音识别,He 等人。2019

关于machine-learning - RNN Transducer 训练中的标签对齐,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56875185/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com