gpt4 book ai didi

pdf - 从不同格式的 pdf 发票中提取数据

转载 作者:行者123 更新时间:2023-12-05 06:17:03 24 4
gpt4 key购买 nike

目标是从 pdf 格式的发票中提取数据。

pdf数据格式:可选文本(非扫描图像)由文本行、名称-值对、表格(不同长度)组成

发票数据包括:名称-值对中的 invoice_no、invoice_date、order_no、order_date表格格式的项目详细信息(项目代码、名称、费率、数量、折扣、价格等)final_taxation_info 和 gross_total

输入:每周都会收到大量具有相似和不同格式的发票

输出:提取发票数据并插入数据库

目前尝试或考虑的方法:

  1. 使用 iText7、PDFix、GemBox.Pdf、GroupDocs.Parser、Bytescout.PDFExtractor、Sautinsoft.pdffocus、Spire.PDF 等库在 C# 中编写自定义算法缺点:必须为新的 pdf 格式修改或编写新算法。
  2. 数据提取工具,例如 SmallPDF、Convertapi.com、cometdocs.com、groupdocs.app。缺点:无法控制提取算法。
  3. 模板引导提取,例如 Pdf_Element、Tabula、Docparser、iText pdf2Data。缺点:当表格长度变化时失败。
  4. 基于
  5. AI/ML的提取、自动化工具/服务,如 AWS Textract、UiPath、KlearStack、IQ Bot(我还没有实际尝试过这最后一种方法-深度,只是划伤了表面)。缺点:不确定,但似乎学习曲线或成本可能是绊脚石。

考虑到整个场景,任何人都可以建议我应该遵循哪种方法。

最佳答案

我们使用方法 1,在我们的组织中,您必须想出pdf->free text-> Formulated exrressions to extract.AI 工具只有在您拥有大量可以使用“训练”AI 的文档时才能发挥作用。

http://www.puntechsolutions.com.au/smartdt.html

关于pdf - 从不同格式的 pdf 发票中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61826823/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com