gpt4 book ai didi

nlp - 带有嵌入的 OpenAI 提示中的上下文有限

转载 作者:行者123 更新时间:2023-12-02 05:49:07 25 4
gpt4 key购买 nike

我正在研究 OpenAI 和 10k SEC PDF 文件。我的堆栈是 OpenAI + Langchain + Pinecone。

我试图通过使用嵌入并在提示中提供来自 Pinecone 的上下文来问一个简单的问题,即“2022 年 AAPL 的收入是多少”。

如果索引中只有 1 个 PDF 文件,则一切正常且答案正确。一旦我输入了几年的多个文档,比如 5 个文档(2018、2019、2020、2021、2022),我基本上永远不会得到正确的答案,因为 pinecone 查询返回错误的上下文(通常是 2018 年、2019 年或 2021 年)。

你会怎么做?如果我的想法是向其提供 5000 个文件,那么嵌入技术是正确的方法还是微调模型是更好的选择?

最佳答案

与在提示中添加一些上下文相比,微调基础模型要困难得多,所以我不会走这条路。

我假设您输入 Pinecone 的文本 block 不包含实际年份,因为在财务报告中多次重复它有点愚蠢。这就是为什么无法从 Pinecone 数据库中选取正确的 block 的原因。

如果您的典型用例是质疑财务报告,您可以将年份作为元数据添加到 Pinecone。如果现在询问有关 2022 年的问题,请仅使用元数据字段年份设置为 2022 年的文本 block 。

关于nlp - 带有嵌入的 OpenAI 提示中的上下文有限,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/76859795/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com