gpt4 book ai didi

nlp - 变压器的输出是否有最大序列长度?

转载 作者:行者123 更新时间:2023-12-05 02:39:28 24 4
gpt4 key购买 nike

只有一件事我找不到答案:当将输出放回转换器时,我们计算它与输入类似(添加掩码),那么是否也有序列大小限制?

即使是 BERT 也有 512 个 token 的输入大小限制,因此 transformer 的输入量也受到限制。那么有没有什么东西可以使输出长度尽可能大,或者是否有一个固定的最大长度?

如果我不够清楚,网络会无限生成单词直到 标记,还是输出有标记限制?

最佳答案

这取决于 Transformer 使用的位置编码类型。具有学习静态位置嵌入的模型(例如 BERT)不能超过学习位置的数量,原因很简单,因为它们无法为解码器嵌入下一个输入以产生输出。

用于机器翻译的原始 Transformer,使用解析定义的位置编码(所谓的正弦编码),理论上应该概括为任意长的输入和输出。然而,在实践中,对于比训练数据中的序列长得多的序列,它的泛化效果很差。

如果您想阅读更多关于变形金刚中位置编码的信息,可以查看 this survey .

关于nlp - 变压器的输出是否有最大序列长度?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69118249/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com