gpt4 book ai didi

nlp - OpenAI GPT-3 API : How does it count tokens for different languages?

转载 作者:行者123 更新时间:2023-12-02 22:46:23 24 4
gpt4 key购买 nike

我们都知道GPT-3模型可以接受和产生英语、法语、中文、日语等各种语言。

在传统的NLP中,不同的语言有不同的token制作方法。

  • 对于像英语这样的字母语言,Bert使用BPE方法来制作如下的token:
Insomnia caused much frustration.
==>
In-, som-, nia, caus-, ed, much, frus-, tra-, tion, .,
  • 对于中文、日文等具有特征性的语言,只需使用字符本身作为标记即可,如下所示。
東京メトロは心に寄り添う
==>
東, 京, メ, ト, ロ, は, 心, に, 寄, り, 添, う,
我说你倒是快点啊!!!
==>
我, 说, 你, 倒, 是, 快, 点, 啊, !, !, !,

但是对于GPT-3来说,它是由不同的语言组成的,并且可以在一句话中产生中文和英文。所以我很好奇这个模型是怎么制作token的。

最佳答案

使用 Tokenizer了解一段文本将如何被 OpenAI API 标记化。

例如,Insomnia caused much frustry. 将被标记为 6 个标记。

Example 1

然而,我说你倒是快点啊!!! 将被标记为 27 个标记,底部有一个小注释:

Note: Your input contained one or more unicode characters that map tomultiple tokens. The output visualization may display the bytes ineach token in a non-standard way.

Example 2

关于nlp - OpenAI GPT-3 API : How does it count tokens for different languages?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75454722/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com