gpt4 book ai didi

algorithm - 谷歌键盘使用哪种算法进行自动建议(包括个人词汇)?

转载 作者:行者123 更新时间:2023-11-30 09:03:17 24 4
gpt4 key购买 nike

我很困惑,因为谷歌无法用每个人的个人词汇来训练他们的文本生成模型。

我试图开发类似的东西,但当神经网络训练期间类的数量变得动态时,我陷入了困境。

如果我不知道类的数量,1 如何给出层的大小和输入的维度。

假设谷歌知道英语词汇中的单词,并且我将俚语中的一些单词添加到我的个人词典中,它将来能够向我建议这些单词。

假设 google 词汇由 10 个单词组成,我在一个序列中给它 5 个单词,它会将它们编码为大小为 (5x10) 的 1 和 0 向量。

然后我添加了 4 个新单词。现在总词汇量 = 14

但 RNN(如果使用)是使用仅 10 个单词的词汇量进行训练的。它无法对这些新单词进行编码,因为这些新单词在训练时不属于词汇。

它是否使用 (5x14) 大小的向量重新训练其文本生成模型?

最佳答案

根据 Google AI article ,他们结合使用了两种方法:

  • 神经空间模型:解决字符级别的认知和运动错误(表现为拼写错误、字符插入、删除或交换等)。他们使用受语音处理启发的 CTC 损失函数训练字符级 LSTM 模型。
  • 有限状态转换器:提供语言词汇约束(语言中出现哪些单词)和语法约束(哪些单词可能跟在其他单词后面)。后者是使用概率 n-gram 模型来表示键盘的语言模型来完成的。

对于您的情况,我建议如下:

  • 您的 RNN 需要在字符级而不是单词级进行训练才能追踪拼写错误。
  • 使用 n-gram 模型来跟踪哪些单词通常伴随哪些单词。这需要根据您喜欢的词汇进行训练。
  • 最后,这并不容易,但却是可行的!

关于algorithm - 谷歌键盘使用哪种算法进行自动建议(包括个人词汇)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59299832/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com