gpt4 book ai didi

ocr - OCR 软件能否可靠地从表格中读取值?

转载 作者:行者123 更新时间:2023-12-03 10:48:06 27 4
gpt4 key购买 nike

OCR 软件是否能够可靠地将如下图像转换为值列表?
Table of values

更新:

更详细的任务如下:

我们有一个客户端应用程序,用户可以在其中打开报告。此报告包含一个值表。
但并不是每个报告看起来都一样——不同的字体、不同的间距、不同的颜色,也许报告包含许多行/列数不同的表格......

用户选择包含表格的报告区域。使用鼠标。

现在我们要使用我们的 OCR 工具将选定的表转换为值。

当用户选择矩形区域时,我可以询问额外的信息
帮助 OCR 过程,并要求确认这些值已被正确识别。

它最初将是一个实验项目,因此最有可能使用开源 OCR 工具 - 或者至少是一个不为实验目的而花费任何金钱的工具。

最佳答案

简单的答案是肯定的,您应该选择正确的工具。

我不知道开源是否可以在这些图像上获得接近 100% 的准确度,但是根据这里的答案,如果您花一些时间进行培训和解决表分析问题之类的问题,那么可能是的。

当我们谈论像 ABBYY 或其他这样的商业 OCR 时,它会为您提供 99% 以上的开箱即用准确度,并且会自动检测表格。没有培训,没有任何东西,只是工作。缺点是你必须支付它$$。有些人会反对,对于开源,你需要花时间来设置和维护——但这里每个人都自己决定。

但是,如果我们谈论商业工具,实际上还有更多选择。这取决于你想要什么。 FineReader 等盒装产品实际上旨在将输入文档转换为 Word 或 Excell 等可编辑文档。由于您实际上想要获取数据,而不是 Word 文档,因此您可能需要查看不同的产品类别 - 数据捕获,它本质上是 OCR 加上一些额外的逻辑来在页面上找到必要的数据。在发票的情况下,它可以是公司名称、总金额、到期日、表中的行项目等。

数据捕获是一个复杂的主题,需要一些学习,但正确使用可以在从文档中捕获数据时保证准确性。它使用不同的规则进行数据交叉检查、数据库查找等。必要时它可以发送数据进行人工验证。企业广泛使用 Data Capture 应用程序每月输入数百万份文档,并严重依赖在其日常工作流程中提取的数据。

当然还有 OCR SDK,它可以让您通过 API 访问识别结果,并且您将能够编程如何处理数据。

如果你更详细地描述你的任务,我可以为你提供建议,哪个方向更容易走。

更新

所以你所做的基本上是数据捕获应用程序,但不是完全自动化的,使用所谓的“点击索引”方法。市场上有许多类似的应用程序:您扫描图像,运算符(operator)单击图像上的文本(或在其周围绘制矩形),然后将字段填充到数据库中。当要处理的图像数量相对较少,并且手动工作量不足以证明完全自动化应用程序的成本时,这是一种很好的方法(是的,有完全自动化的系统可以处理具有不同字体、间距、布局、数量的图像)表中的行等)。

如果您决定开发东西而不是购买,那么您需要的只是选择 OCR SDK。你要自己写的所有用户界面,对吧?最大的选择是决定:开源还是商业。

据我所知,最好的开源是tesseract OCR。它是免费的,但在表格分析方面可能存在实际问题,但使用手动分区方法这应该不是问题。至于 OCR 准确性 - 人们经常训练 OCR 字体以提高准确性,但这不应该是你的情况,因为字体可能不同。所以你可以试试tesseract,看看你会得到什么准确度——这会影响纠正它的手动工作量。

商业 OCR 将提供更高的准确性,但会花费您金钱。我认为无论如何你都应该看看它是否值得,或者tessrack对你来说已经足够了。我认为最简单的方法是下载一些像 FineReader 这样的盒子 OCR 产品的试用版。那么您将清楚地了解 OCR SDK 中的准确度是多少。

关于ocr - OCR 软件能否可靠地从表格中读取值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6173439/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com