gpt4 book ai didi

python - GPT-2 的 "prompt"可以输入多少个字符

转载 作者:行者123 更新时间:2023-12-02 22:44:38 25 4
gpt4 key购买 nike

我正在使用来自 github 的 OpenAI GPT-2 模型

我认为 top_k 参数决定了采样的 token 数量。这也是决定可以给出多大提示的参数吗?

如果top_k = 40,提示可以有多大?

最佳答案

GPT-2 不适用于字符级别,但适用于子词级别。训练的最大文本段长度为 1,024 个子词。

它使用基于 byte-pair-encoding 的词汇表.在这种编码下,频繁词保持完整,不频繁词被拆分成几个单元,最终分解到字节级别。在实践中,分割看起来像这样(69 个字符,17 个子词):

Hello , ▁Stack Over flow ! ▁This ▁is ▁an ▁example ▁how _a ▁string ▁gets ▁segment ed .

在训练时,提示和答案之间没有区别,所以唯一的限制是提示和答案的总长度不能超过 1,024 个子词。理论上,您可以继续生成超过此时间,但历史模型认为永远不会更长。

top_k 的选择只会影响内存需求。长查询也需要更多内存,但这可能不是主要限制

关于python - GPT-2 的 "prompt"可以输入多少个字符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63380543/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com