- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
OpenAI 的文本模型具有上下文长度,例如:Curie 的上下文长度为 2049 个标记。它们提供 max_tokens 和 stop 参数来控制生成序列的长度。因此,当获得停止 token 或达到 max_tokens 时,生成就会停止。
问题是:生成文本时,我不知道提示符包含多少个标记。因为我不知道,所以我无法设置 max_tokens = 2049 - number_tokens_in_prompt。
这使我无法为各种长度的文本动态生成文本。我需要的是继续生成直到停止 token 。
我的问题是:
最佳答案
正如官方所说OpenAI article :
To further explore tokenization, you can use our interactive Tokenizertool, which allows you to calculate the number of tokens and see howtext is broken into tokens. Alternatively, if you'd like to tokenizetext programmatically, use Tiktoken as a fast BPE tokenizerspecifically used for OpenAI models. Other such libraries you canexplore as well include transformers package for Python or thegpt-3-encoder package for NodeJS.
分词器可以将文本字符串拆分为标记列表,如官方 OpenAI example 中所述。关于使用 Tiktoken 计算代币:
Tiktoken is a fast open-source tokenizer by OpenAI.
Given a text string (e.g.,
"tiktoken is great!"
) and an encoding(e.g.,"cl100k_base"
), a tokenizer can split the text string into alist of tokens (e.g.,["t", "ik", "token", " is", " great", "!"]
).Splitting text strings into tokens is useful because GPT models seetext in the form of tokens. Knowing how many tokens are in a textstring can tell you:
- whether the string is too long for a text model to process and
- how much an OpenAI API call costs (as usage is priced by token).
Tiktoken 支持 OpenAI 模型使用的 3 种编码( source ):
编码名称 | OpenAI 模型 |
---|---|
cl100k_base |
gpt-4 , gpt-3.5-turbo , text-embedding-ada-002 |
p50k_base |
text-davinci-003 , text-davinci-002 |
r50k_base |
GPT-3 models ( text-curie-001 、 text-babbage-001 、 text-ada-001 、 davinci 、 curie 、 babbage 、 ada ) |
对于cl100k_base
和p50k_base
编码:
对于r50k_base
编码、分词器可用于多种语言:
请注意gpt-3.5-turbo
和gpt-4
使用代币的方式与官方OpenAI documentation中说明的其他型号相同:
Chat models like
gpt-3.5-turbo
andgpt-4
use tokens in the same way asother models, but because of their message-based formatting, it's moredifficult to count how many tokens will be used by a conversation.If a conversation has too many tokens to fit within a model’s maximumlimit (e.g., more than 4096 tokens for
gpt-3.5-turbo
), you will haveto truncate, omit, or otherwise shrink your text until it fits. Bewarethat if a message is removed from the messages input, the model willlose all knowledge of it.Note too that very long conversations are more likely to receiveincomplete replies. For example, a
gpt-3.5-turbo
conversation that is4090 tokens long will have its reply cut off after just 6 tokens.
安装或升级tiktoken:pip install --upgrade tiktoken
您有两个选择。
选项 1:在上表中搜索给定 OpenAI 模型的正确编码
如果你运行get_tokens_1.py
,您将得到以下输出:
9
get_tokens_1.py
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
print(num_tokens_from_string("Hello world, let's test tiktoken.", "cl100k_base"))
选项 2:使用 tiktoken.encoding_for_model()
自动加载给定 OpenAI 模型的正确编码
如果你运行get_tokens_2.py
,您将得到以下输出:
9
get_tokens_2.py
import tiktoken
def num_tokens_from_string(string: str, encoding_name: str) -> int:
encoding = tiktoken.encoding_for_model(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
print(num_tokens_from_string("Hello world, let's test tiktoken.", "gpt-3.5-turbo"))
注意:如果您仔细查看 usage
OpenAI API 响应中的字段,您会看到它报告 10
用于相同消息的 token 。那是1
代币比 Tiktoken 多。我还没弄清楚为什么。我过去对此进行了测试(请参阅我的 past answer )。正如 @Jota 在下面的评论中提到的,OpenAI API 响应报告的 token 使用情况与 Tiktoken 之间似乎仍然不匹配。
关于openai-api - OpenAI API : How do I count tokens before(! ) 我发送 API 请求?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75804599/
我正在开发一个应用程序,它使用 OAuth - 基于 token 的身份验证。 考虑到我们拥有访问和刷新 token ,这就是流程的样子。 Api call -> intercepter append
如何取消标记此代码的输出? 类(class)核心: def __init__(self, user_input): pos = pop(user_input) subject = ""
当我使用命令 kubectl 时与 --token标记并指定 token ,它仍然使用 kubeconfig 中的管理员凭据文件。 这是我做的: NAMESPACE="default" SERVICE
我正在制作 SPA,并决定使用 JWT 进行身份验证/授权,并且我已经阅读了一些关于 Tokens 与 Cookies 的博客。我了解 cookie 授权的工作原理,并了解基本 token 授权的工作
我正在尝试从应用服务获取 Google 的刷新 token ,但无法。 日志说 2016-11-04T00:04:25 PID[500] Verbose Received request: GET h
我正在开发一个项目,只是为了为 java 开发人员测试 eclipse IDE。我是java新手,所以我想知道为什么它不起作用,因为我已经知道该怎么做了。这是代码: public class ecli
我正在尝试使用 JwtSecurityTokenHandler 将 token 字符串转换为 jwt token 。但它出现错误说 IDX12709: CanReadToken() returned
我已阅读文档 Authentication (来自 Facebook 的官方)。我仍然不明白 Facebook 提供的这三种访问 token 之间的区别。网站上给出了一些例子,但我还是不太明白。 每个
我的部署服务器有时有这个问题,这让我抓狂,因为我无法在本地主机中重现,我已经尝试在我的 web.config 中添加机器 key ,但没有成功远。 它只发生在登录页面。 我的布局:
我已经设法获得了一个简单的示例代码,它可以创建一个不记名 token ,还可以通过阅读 stackoverflow 上的其他论坛来通过刷新 token 请求新的不记名 token 。 启动类是这样的
如果我有以前的刷新 token 和使用纯 php 的访问 token ,没有 Google Api 库,是否可以刷新 Google Api token ?我在数据库中存储了许多用户刷新和访问 toke
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序,该应用程序运行了 1 年多,没有任何问题,我什至在 Create Spreadsheet using Google
当我有一个有效的刷新 token 时,我正在尝试使用 Keycloak admin REST API 重新创建访问 token 。 我已经通过调用 POST/auth/realms/{realm}/p
我正在尝试让第三方 Java 客户端与我编写的 WCF 服务进行通信。 收到消息时出现如下异常: Cannot find a token authenticator for the 'System.I
在尝试将数据插入到我的 SQl 数据库时,我收到以下错误 System.Data.SqlServerCe.SqlCeException: There was an error parsing the
使用数据库 session token 系统,我可以让用户使用用户名/密码登录,服务器可以生成 token (例如 uuid)并将其存储在数据库中并将该 token 返回给客户端。其上的每个请求都将包
我最近注册了 Microsoft Azure 并设置了认知服务帐户。使用 Text Translation API Documentation 中的说明我能够使用 interactive online
我使用 IAntiforgery API 创建了一个 ASP.Net Core 2 应用程序。 这提供了一种返回 cookie 的方法。 客户端获取该 cookie,并在后续 POST 请求中将该值放
我正在使用 spacy 来匹配某些文本(意大利语)中的特定表达式。我的文本可以多种形式出现,我正在尝试学习编写一般规则的最佳方式。我有如下 4 个案例,我想写一个适用于所有案例的通用模式。像这样的东西
我无法理解 oauth 2.0 token 的原则处理。 我的场景是,我有一个基于 web 的前端后端系统,带有 node.js 和 angular 2。用户应该能够在此站点上上传视频。然后创建一些额
我是一名优秀的程序员,十分优秀!