gpt4 book ai didi

parsing - 从 pdf 或图像格式的发票中提取数据

转载 作者:行者123 更新时间:2023-12-03 14:33:04 24 4
gpt4 key购买 nike

我正在开发发票解析器,它从 pdf 或图像格式的发票中提取数据。它适用于具有非表格数据的简单 pdf,但提供了大量输出数据以使用包含表格的 pdf 进行处理。我无法获得有效的通用解决方案为此,我尝试了以下库

Invoice2Data : 它是基于模板的。到目前为止,它在json格式中给出了相当好的结果。但是包含动态表的复杂pdf的模板创建很复杂。

表格 : 表提取是基于要提取的表的坐标。如果表中的数据增加,则表长度增加,因此坐标发生变化,因此在这种情况下会给出错误的结果。

pdftotext :它将任何 pdf 转换为文本,但格式需要我们不想要的大量解析。

Aws_Textract 和 Elis_Rossum_Ai : 以json格式给出所有数据。但是如果表列包含多行,那么json解析就变得困难了。即使是给定的json,解析的大小也很大。

Tesseract :与 pdftotext 相同。复杂的 pdf 不可解析。

除了所有这些或与上述库的组合之外,是否有人能够解析复杂的 pdf 数据,请帮忙。

最佳答案

我正在处理类似的业务问题。由于发票没有固定格式,因此您不能直接使用任何文本解析方法。
要解决这个问题,您必须使用计算机视觉(深度学习)进行场检测,使用 Pytesseract OCR 将图像转换为文本。为了更好地理解这里是步骤:

  • 使用 labelImg 等工具将发票转换为图像并使用地址、金额等字段对图像进行注释。 (为了获得更好的结果,请使用不同类型的 500-1000 张发票)
  • 生成 XML 文件后,训练任何对象检测模型,如 YOLO 或 TF 对象检测 API。
  • 该模型将检测字段并为您提供感兴趣区域 (ROI) 的坐标。喜欢
    Example Invoice
  • 在 ROI 坐标上应用 Pytessract OCR。 Click Here
  • 最后,使用正则表达式验证提取字段中的文本并执行任何必要的操作/转换。最后将数据存储到 CSV OR 数据库。

  • 希望我的回答能帮到你! Upvote 答案,使其达到最多的人。

    关于parsing - 从 pdf 或图像格式的发票中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56278094/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com