gpt4 book ai didi

php - 从图像或扫描文档中提取表格数据(非 pdf)

转载 作者:太空宇宙 更新时间:2023-11-04 05:19:59 25 4
gpt4 key购买 nike

我想从图像或扫描文档中提取表格数据,并将标题字段映射到保险文档中的特定值。我尝试逐行提取它们,然后使用它们在页面上的位置映射它们。我通过定义表格开始和结束枢轴来给出表格边界,但它没有给我正确的结果,因为标题有时有多行(我已经在 php 中实现了这个)。我也想知道我是否可以使用机器学习来实现同样的目标。

对于 pdf 文档,我使用了 tabula-java 这对我来说效果很好。是否也有类似的图像实现类型?

Insurance_Image

文档的类型与上面的链接类似,但服务提供商不同,因此提取此类数据的通用方法将非常有用。

在上图中,我想要像 Make = YAMAHA、MODEL= FZ-S、CC= 153 等这样的映射值

谢谢。

最佳答案

我肯定会去 Tesseract ,一个非常好的OCR引擎。我一直在成功地使用它阅读电子邮件中嵌入的各种文档(PDF、图像),我的一位同事将它用于与您的用例非常相似的事情 - 从发票中读取特定字段。

解析文档后,只需使用正则表达式来选择感兴趣的字段。

我不认为机器学习对您特别有用,除非您打算构建自己的 OCR 引擎。我会从现有的库开始,它们提供了非常好的性能。

关于php - 从图像或扫描文档中提取表格数据(非 pdf),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40673231/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com