token - 聊天GPT : How to use long texts of unknown content in a prompt?-6ren

token - 聊天GPT : How to use long texts of unknown content in a prompt?

转载作者：行者123 更新时间：2023-12-02 22:47:36

25

4

我喜欢这个网站chatpdf.com很多。您可以上传 PDF 文件，然后与文件“本身”讨论该文件的文本内容。它使用 ChatGPT。

我想编写类似的程序。但我想知道如何在 ChatGPT 提示中使用长 PDF 文件的内容，因为 ChatGPT 每个对话只接受 4096 个 token 。

如何减少所需的代币数量？

需要考虑的重要一点是，未知将使用哪些文档。我们的目标不是总结文档，而是就内容进行详细对话。

我使用 56 页、11110 个字的 PDF 文件对其进行了测试。我尝试从字符串中删除不太重要的单词以输入提示。但根据 OpenAI 的 tiktoken 库，这只会导致代币从 27082 个减少到 25288 个。尝试使用 [UNK] 标签掩盖这些单词会导致标记数量增加到超过 30000 个。

最佳答案

正如 Benevos 所说，您受到模型最大 token 大小的限制(提示和完成的组合)。因此，对于 gpt-3.5-turbo-0301 模型，它是 4096。即，对于 4000 个 token 的提示，它将最多返回 96 个 token 响应。

我发现有两个选项可以满足您的要求:

微调建模需要大量数据操作才能正确。所以我不推荐这种方式。

我会推荐 OpenAI Cookbook Question Answering using Embeddings 从您自己的私有(private)数据中生成答案的示例方法。

我创建了一些示例，这些示例采用 pdf 文档并执行“使用嵌入进行问答”的方式，它对我来说工作正常。

关于token - 聊天GPT : How to use long texts of unknown content in a prompt?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/75777566/

25

4

0

文章推荐： node.js - ChatGPT 按 block 读取 PDF

typescript - 不可分配给类型 'LocationDescriptor | ((location: Location) => LocationDescriptor)'
这是我的代码 14 20 {"Confirm Email"} 21 在第 17 行我得到错误 Type '{ pathname: string; user: { em
typescript - 不可分配给类型 'LocationDescriptor | ((location: Location) => LocationDescriptor)'
这是我的代码 14 20 {"Confirm Email"} 21 在第 17 行我得到错误 Type '{ pathname: string; user: { em
Java KeyEvent - 为什么 "Unknown"!= "Unknown"？
这个问题已经有答案了: How do I compare strings in Java? (23 个回答) 已关闭 8 年前。为什么 KeyEvent.getKeyText(0).substrin
Rust wasm32-unknown-unknown 数学函数不链接
我正在尝试 Rust 的新 wasm32-unknown-unknown 目标，我在调用数学函数(例如 sin、cos、exp、atan2)时遇到问题。 cargo .toml: [package]
java - 项目构建错误 : Invalid packaging for parent POM [unknown-group-id]:[unknown-artifact-id]:[unknown-version], 必须是 "pom"但实际上是 "jar"
当我为 spring-boot 创建启动项目时，我在 pom 文件中收到此错误。这只是为了创建一个基本的 Spring Boot 项目 Project build error: Invalid pac
javascript - 属性管道不适用于类型 "OperatorFunction"
我已经订阅了我想要传输的数据。但不知何故它不起作用。我收到此错误: The property pipe is not available for type "OperatorFunction" 这是我
postgresql - 函数 to_char(unknown, unknown) 不是唯一的
运行以下查询时。select * from surgerys where to_char(dt_surgery ,'DD-MM-YYYY' ) = to_char('12-02-2012','DD-M
java - 不支持从 UNKNOWN 到 UNKNOWN 的转换
我在运行存储过程时遇到以下异常: com.microsoft.sqlserver.jdbc.SQLServerException:不支持从 UNKNOWN 到 UNKNOWN 的转换。过程定义如下:
python - 值错误 : Unknown label type: 'unknown'
我尝试运行以下代码。顺便说一句，我对 python 和 sklearn 都是新手。 import pandas as pd import numpy as np from sklearn.linear
typescript - `unknown` 类型被强制为 `string` ，尽管 `unknown` 的官方语义
我已经阅读了关于未知类型的官方文档，但我很难真正理解它是如何工作的。人们可以在文档中读到:“在没有首先断言或缩小到更具体的类型之前，不允许对未知进行任何操作。” 但如果我有这个功能: const f
java - Hadoop设置中的“unknown.prolexic.com: unknown error”
我正在尝试在Mac OS中设置Hadoop 2.6.0 我正在关注这篇文章: http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hado
Docker 从 Nexus 代理拉取来自守护进程 : unknown: unknown 的错误响应
配置 Nexus docker 注册表和代理“dockerhub-proxy”后，如下所述: https://help.sonatype.com/repomanager3/formats/docker
python - 值错误 : Unknown label type: 'unknown' in sklearn
我收到此错误 - “ValueError:未知标签类型:'unknown'” 我已经在网上搜索但无法摆脱这个错误，顺便说一句，我是 python 的新手:) 我的数据有 5 行 22 列，最后一列是标
openshift - API 错误 (500) : manifest unknown: manifest unknown
使用 SHA256 摘要标识符拉取图像失败最佳答案不幸的是，这是 DockerHub 删除 Docker 1.9 守护进程的向后兼容性的副作用。当使用 Docker 1.10 推送图像时，较旧的
postgresql [42883] 错误 : function to_tsvector ("unknown", "unknown") 不存在
我是 postgresql 的新手，正在尝试使用全文搜索 to_tsvector但是我遇到了错误。 SQL 和错误 SELECT to_tsvector('english', 'The quick b
laravel - 获得 95% 发出未命名的兼容插件错误 : UNKNOWN: unknown error, 打开
每当我这样做时 npm run watch ，第一次编译工作正常 - 但经过几次编译后，我最终会得到这个错误: 95% emitting unnamed compat pluginError: UNK
node.js - chokidar : Error: UNKNOWN: unknown error, watch 的错误
在一个新的 Angular 应用程序中，我收到以下错误:Error from chokidar : Error: UNKNOWN: unknown error, watch我已经删除并重新安装 nod
TypeScript:将 Container> 转换为 Maybe>
使用 Typescipt 4.x.x 我写了一些代码来实现其他语言 Elm/Rust/Haskell 中常用的 Maybe/Option 类型。我想写一个可以接受映射类型的通用函数 type MyM
typescript - (参数) state : unknown Object is of type 'unknown' . redux TS
const submitted = useSelector((state) => state.post.submitted) 对于上面的状态。我得到错误: (参数)状态:未知对象的类型为“未知”。这
docker - 什么是 "manifest blob unknown: blob unknown to registry"错误
我正在尝试将多架构 docker 镜像推送到 docker hub 并遇到错误(在 https://github.com/docker/distribution/issues/3100 处打开了 do

首页

博学

6Ren·AI

商城

token - 聊天GPT : How to use long texts of unknown content in a prompt?