openai-api - OpenAI API : How do I count tokens before(! ) 我发送 API 请求？-6ren

openai-api - OpenAI API : How do I count tokens before(! ) 我发送 API 请求？

转载作者：行者123 更新时间：2023-12-02 05:48:06

30

4

OpenAI 的文本模型具有上下文长度，例如:Curie 的上下文长度为 2049 个标记。它们提供 max_tokens 和 stop 参数来控制生成序列的长度。因此，当获得停止 token 或达到 max_tokens 时，生成就会停止。

问题是:生成文本时，我不知道提示符包含多少个标记。因为我不知道，所以我无法设置 max_tokens = 2049 - number_tokens_in_prompt。

这使我无法为各种长度的文本动态生成文本。我需要的是继续生成直到停止 token 。

我的问题是:

如何计算 Python API 中的 token 数量？这样我就会相应地设置 max_tokens 参数。
有没有办法将 max_tokens 设置为最大上限，这样我就不需要计算提示 token 的数量？

最佳答案

正如官方所说OpenAI article :

To further explore tokenization, you can use our interactive Tokenizertool, which allows you to calculate the number of tokens and see howtext is broken into tokens. Alternatively, if you'd like to tokenizetext programmatically, use Tiktoken as a fast BPE tokenizerspecifically used for OpenAI models. Other such libraries you canexplore as well include transformers package for Python or thegpt-3-encoder package for NodeJS.

分词器可以将文本字符串拆分为标记列表，如官方 OpenAI example 中所述。关于使用 Tiktoken 计算代币:

Tiktoken is a fast open-source tokenizer by OpenAI.

Given a text string (e.g., "tiktoken is great!") and an encoding(e.g., "cl100k_base"), a tokenizer can split the text string into alist of tokens (e.g., ["t", "ik", "token", " is", " great", "!"]).

Splitting text strings into tokens is useful because GPT models seetext in the form of tokens. Knowing how many tokens are in a textstring can tell you:

whether the string is too long for a text model to process and

how much an OpenAI API call costs (as usage is priced by token).

Tiktoken 支持 OpenAI 模型使用的 3 种编码( source ):

编码名称	OpenAI 模型
`cl100k_base`	`gpt-4` , `gpt-3.5-turbo` , `text-embedding-ada-002`
`p50k_base`	`text-davinci-003` , `text-davinci-002`
`r50k_base`	GPT-3 models ( `text-curie-001` 、 `text-babbage-001` 、 `text-ada-001` 、 `davinci` 、 `curie` 、 `babbage` 、 `ada` )

对于cl100k_base和p50k_base编码:

Python:tiktoken
.NET/C#:SharpToken
Java:jtokkit

对于r50k_base编码、分词器可用于多种语言:

Python:tiktoken (或者GPT2TokenizerFast)
JavaScript:gpt4-tokenizer , gpt3-tokenizer , gpt-3-encoder
.NET/C#:GPT Tokenizer
Java:gpt2-tokenizer-java
PHP:GPT-3-Encoder-PHP

请注意gpt-3.5-turbo和gpt-4使用代币的方式与官方OpenAI documentation中说明的其他型号相同:

Chat models like gpt-3.5-turbo and gpt-4 use tokens in the same way asother models, but because of their message-based formatting, it's moredifficult to count how many tokens will be used by a conversation.

If a conversation has too many tokens to fit within a model’s maximumlimit (e.g., more than 4096 tokens for gpt-3.5-turbo), you will haveto truncate, omit, or otherwise shrink your text until it fits. Bewarethat if a message is removed from the messages input, the model willlose all knowledge of it.

Note too that very long conversations are more likely to receiveincomplete replies. For example, a gpt-3.5-turbo conversation that is4090 tokens long will have its reply cut off after just 6 tokens.

如何使用抖音？

安装或升级tiktoken:pip install --upgrade tiktoken
您有两个选择。

选项 1:在上表中搜索给定 OpenAI 模型的正确编码

如果你运行get_tokens_1.py ，您将得到以下输出:

9

get_tokens_1.py

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

print(num_tokens_from_string("Hello world, let's test tiktoken.", "cl100k_base"))

选项 2:使用 tiktoken.encoding_for_model()自动加载给定 OpenAI 模型的正确编码

如果你运行get_tokens_2.py ，您将得到以下输出:

9

get_tokens_2.py

import tiktoken

def num_tokens_from_string(string: str, encoding_name: str) -> int:
    encoding = tiktoken.encoding_for_model(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

print(num_tokens_from_string("Hello world, let's test tiktoken.", "gpt-3.5-turbo"))

注意:如果您仔细查看 usage OpenAI API 响应中的字段，您会看到它报告 10用于相同消息的 token 。那是1代币比 Tiktoken 多。我还没弄清楚为什么。我过去对此进行了测试(请参阅我的 past answer )。正如 @Jota 在下面的评论中提到的，OpenAI API 响应报告的 token 使用情况与 Tiktoken 之间似乎仍然不匹配。

关于openai-api - OpenAI API : How do I count tokens before(! ) 我发送 API 请求？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/75804599/

30

4

0

文章推荐： python - 如何继续openai API响应不完整

文章推荐： python - 如何使用 Codex API 获取 token 或代码嵌入？

android - 使用刷新 token 在访问 token 过期之前刷新访问 token
我正在开发一个应用程序，它使用 OAuth - 基于 token 的身份验证。考虑到我们拥有访问和刷新 token ，这就是流程的样子。 Api call -> intercepter append
python - 如何取消对 spacy.tokens.token.Token 的标记？
如何取消标记此代码的输出？类(class)核心: def __init__(self, user_input): pos = pop(user_input) subject = ""
kubernetes - kubectl --token=$TOKEN 没有使用 token 的权限运行
当我使用命令 kubectl 时与 --token标记并指定 token ，它仍然使用 kubeconfig 中的管理员凭据文件。这是我做的: NAMESPACE="default" SERVICE
security - 访问 token 和刷新 token 最佳实践？如何实现访问和刷新 token
我正在制作 SPA，并决定使用 JWT 进行身份验证/授权，并且我已经阅读了一些关于 Tokens 与 Cookies 的博客。我了解 cookie 授权的工作原理，并了解基本 token 授权的工作
azure - 请求刷新 token 失败。在 token 存储中找不到刷新 token
我正在尝试从应用服务获取 Google 的刷新 token ，但无法。日志说 2016-11-04T00:04:25 PID[500] Verbose Received request: GET h
java - token 语法错误 "(", ; token ","上的预期语法错误，； token ")"上的预期语法错误，；预期的
我正在开发一个项目，只是为了为 java 开发人员测试 eclipse IDE。我是java新手，所以我想知道为什么它不起作用，因为我已经知道该怎么做了。这是代码: public class ecli
asp.net - token 处理程序无法将 token 转换为 jwt token
我正在尝试使用 JwtSecurityTokenHandler 将 token 字符串转换为 jwt token 。但它出现错误说 IDX12709: CanReadToken() returned
android - Facebook 用户访问 token 与应用程序访问 token 与页面访问 token
我已阅读文档 Authentication (来自 Facebook 的官方)。我仍然不明白 Facebook 提供的这三种访问 token 之间的区别。网站上给出了一些例子，但我还是不太明白。每个
c# - 防伪 token 无法解密 & 防伪cookie token 和表单字段 token 在部署中不匹配
我的部署服务器有时有这个问题，这让我抓狂，因为我无法在本地主机中重现，我已经尝试在我的 web.config 中添加机器 key ，但没有成功远。它只发生在登录页面。我的布局:
c# - 如何在不创建新刷新 token 的情况下使用刷新 token 更新 Owin 访问 token ？
我已经设法获得了一个简单的示例代码，它可以创建一个不记名 token ，还可以通过阅读 stackoverflow 上的其他论坛来通过刷新 token 请求新的不记名 token 。启动类是这样的
php - Google Api，当我有访问 token 和以前的刷新 token 时如何刷新用户 token
如果我有以前的刷新 token 和使用纯 php 的访问 token ，没有 Google Api 库，是否可以刷新 Google Api token ？我在数据库中存储了许多用户刷新和访问 toke
java - token 无效 - 无效 token : Cannot parse referred token string: Invalid gaia_data. Base64 token 上的 AuthSubToken 原型(prototype)
我通过 Java 应用程序使用 Google 电子表格时遇到了问题。我创建了应用程序，该应用程序运行了 1 年多，没有任何问题，我什至在 Create Spreadsheet using Google
Keycloak admin REST API - 使用刷新 token 创建新的访问 token 而不重新创建刷新 token
当我有一个有效的刷新 token 时，我正在尝试使用 Keycloak admin REST API 重新创建访问 token 。我已经通过调用 POST/auth/realms/{realm}/p
wcf - 找不到 'System.IdentityModel.Tokens.UserNameSecurityToken' token 类型的 token 验证器。
我正在尝试让第三方 Java 客户端与我编写的 WCF 服务进行通信。收到消息时出现如下异常: Cannot find a token authenticator for the 'System.I
sql - 解析查询时出错。 [ token 行号=1， token 行偏移量=52， token 错误=)]
在尝试将数据插入到我的 SQl 数据库时，我收到以下错误 System.Data.SqlServerCe.SqlCeException: There was an error parsing the
access-token - JSON Web token (JWT) 相对于数据库 session token 的优势
使用数据库 session token 系统，我可以让用户使用用户名/密码登录，服务器可以生成 token (例如 uuid)并将其存储在数据库中并将该 token 返回给客户端。其上的每个请求都将包
azure - 错误: The received token is of incorrect token type -- What should the token look like?
我最近注册了 Microsoft Azure 并设置了认知服务帐户。使用 Text Translation API Documentation 中的说明我能够使用 interactive online
asp.net - 所提供的防伪 token 验证失败。 cookie token 和请求 token 已交换
我使用 IAntiforgery API 创建了一个 ASP.Net Core 2 应用程序。这提供了一种返回 cookie 的方法。客户端获取该 cookie，并在后续 POST 请求中将该值放
python - 基于 Spacy token 的匹配， token 之间的 token 数量为 'n'
我正在使用 spacy 来匹配某些文本(意大利语)中的特定表达式。我的文本可以多种形式出现，我正在尝试学习编写一般规则的最佳方式。我有如下 4 个案例，我想写一个适用于所有案例的通用模式。像这样的东西
javascript - OAuth 2.0 token 处理。是否有服务器 token 和客户端 token ？
我无法理解 oauth 2.0 token 的原则处理。我的场景是，我有一个基于 web 的前端后端系统，带有 node.js 和 angular 2。用户应该能够在此站点上上传视频。然后创建一些额

首页

博学

6Ren·AI

商城

openai-api - OpenAI API : How do I count tokens before(! ) 我发送 API 请求？

如何使用抖音？