gpt4 book ai didi

node.js - 是否有 cl100k_base 分词器的 javascript 实现?

转载 作者:行者123 更新时间:2023-12-02 05:46:20 25 4
gpt4 key购买 nike

OpenAI 的新嵌入 API 使用 cl100k_base 分词器。我是从 NodeJS 客户端调用它的,但我发现没有简单的方法来分割我的字符串,使它们不超过 8192 个 token 的 OpenAI 限制。

如果我可以先对字符串进行编码,将其切片到极限,然后对其进行解码并将其发送到 API,这将是微不足道的。

最佳答案

搜索了一段时间后,似乎没有 cl100k_base 分词器的 javascript 实现。作为一个简单的临时解决方案,有一个通用的经验法则,即一个标记对应于大约 4 个普通英文字符。这大致相当于 1 个标记等于一个单词的 3/4。因此,在您的情况下,限制为 8,192 个标记 ~= 6,144 个单词。因此,您可以对字符串进行切片,使其不超过 ~6,144 个单词(例如,设置 6,100 个单词的限制,如果失败,则进一步降低限制,直到找到合适的单词为止)。

关于node.js - 是否有 cl100k_base 分词器的 javascript 实现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/74837617/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com