gpt4 book ai didi

text-extraction - 如何使用查询从大文本中自动提取数据

转载 作者:行者123 更新时间:2023-12-02 22:44:56 26 4
gpt4 key购买 nike

我有大型 pdf 文件(法语的 100 页)描述了我的事件部门的一套规则。

我正在寻找一种服务,允许我一次查询一个 pdf(或我从中提取的文本)以自动获取信息。

(示例:x 的最大授权长度是多少?)

我查看了 openAI 的 chatGPT 并遇到了最大 token 问题,因为如前所述,文本很大。

我查看了亚马逊的 Textract,它确实有一个查询系统,但它似乎是为图像处理而构建的,所以将我的文本转换为图像似乎不是最佳选择,尤其是因为图像需要非常大(我还不能找到软件将这些 pdf 合并到一个非常非常大的图像中,而不会遇到内存问题,我很确定 Textract 无法处理这些问题。

我查看了其他在线解决方案,但似乎没有任何解决方案能够满足我对大文本和复杂查询的需求。

最佳答案

Amazon Textract 支持 PDF 作为输入,因此您无需将 pdf 转换为文本再转换回图像。

 PDF and TIFF files have a 500 MB limit. PDF and TIFF files have a limit of 3,000 pages.

这是一个使用 Textract 进行查询的教程。要与多页一起使用,您需要使用异步 API 使用 .start_document_analysis https://aws-samples.github.io/amazon-textract-textractor/notebooks/using_queries.html

相关代码在这里:

from textractor import Textractor
from textractor.data.constants import TextractFeatures
from textractcaller import QueriesConfig, Query

extractor = Textractor(profile_name="default")

document1 = extractor.start_document_analysis(
file_source='./multipage.pdf',
features=[TextractFeatures.QUERIES],
s3_upload_path='<YOUR_S3_BUCKET>',
s3_output_path='<YOUR_S3_BUCKET>',
save_image=True,
queries=QueriesConfig([Query("What is the first row value")])
)
document1.queries[0].result
0.129853474

关于text-extraction - 如何使用查询从大文本中自动提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75545480/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com