gpt4 book ai didi

token - 聊天GPT : How to use long texts of unknown content in a prompt?

转载 作者:行者123 更新时间:2023-12-02 22:47:36 25 4
gpt4 key购买 nike

我喜欢这个网站chatpdf.com很多。您可以上传 PDF 文件,然后与文件“本身”讨论该文件的文本内容。它使用 ChatGPT。

我想编写类似的程序。但我想知道如何在 ChatGPT 提示中使用长 PDF 文件的内容,因为 ChatGPT 每个对话只接受 4096 个 token 。

如何减少所需的代币数量?

需要考虑的重要一点是,未知将使用哪些文档。我们的目标不是总结文档,而是就内容进行详细对话。

我使用 56 页、11110 个字的 PDF 文件对其进行了测试。我尝试从字符串中删除不太重要的单词以输入提示。但根据 OpenAI 的 tiktoken 库,这只会导致代币从 27082 个减少到 25288 个。尝试使用 [UNK] 标签掩盖这些单词会导致标记数量增加到超过 30000 个。

最佳答案

正如 Benevos 所说,您受到模型最大 token 大小的限制(提示和完成的组合)。因此,对于 gpt-3.5-turbo-0301 模型,它是 4096。即,对于 4000 个 token 的提示,它将最多返回 96 个 token 响应。

我发现有两个选项可以满足您的要求:

  1. fine-tune modeling
  2. Question Answering using Embeddings

微调建模需要大量数据操作才能正确。所以我不推荐这种方式。

我会推荐 OpenAI Cookbook Question Answering using Embeddings 从您自己的私有(private)数据中生成答案的示例方法。

我创建了一些示例,这些示例采用 pdf 文档并执行“使用嵌入进行问答”的方式,它对我来说工作正常。

关于token - 聊天GPT : How to use long texts of unknown content in a prompt?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75777566/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com