gpt4 book ai didi

iphone - 使用Iphone相机识别特定位置的文本

转载 作者:行者123 更新时间:2023-12-03 18:46:54 26 4
gpt4 key购买 nike

我想开发一个应用程序,它应该能够识别计算机打印卡中的一些数字(位于卡的固定位置),然后将它们发送到网络服务。

我知道我应该使用 OCR,但我不确定哪种产品适合我的需求。如果您能向我推荐市场上任何可以帮助我完成这个项目的 api 或产品(开源不是必须的,但非常受欢迎:),那就太好了。

除此之外,我还有另一个技术问题:您会在设备中实现 OCR 识别,还是使用 Web 服务来实现并将图片传递给它?两种模型各有哪些优缺点?

最佳答案

如果您需要定位图像上特定字段的解决方案,那么它不仅仅是 OCR,而是数据捕获任务。有几种方法可以解决这个问题:根据其他答案中建议的 OCR 输出编写现场检测解决方案,或者使用专门为此设计并提供用于定义布局结构的可视化工具的工具包。

第一种方式需要更多的编程,但在许可方面更便宜。您不仅可以选择商业库,还可以选择开源 OCR 库,例如 Tesseract,它可能并不完美,但通过一些调整和字体训练就足以完成许多任务。

在处理低质量图像时(其中很大一部分是由手机摄像头拍摄的图像),您的现场定位解决方案必须注意图像某些部分未被识别或错误识别的情况,但仍然能够找到您想要的字段。您可能还需要交叉检查多个识别变体以提供合理的组合。

这并不是一件小事,需要一些时间才能使其可靠地工作。但仍然可行,只要您没有非常复杂的文档并且只有一种布局并且非常可预测。一旦您拥有代码,就可以在服务器和手机上运行。

如果您正在寻找更复杂的文档和各种布局变体,则在纯代码中管理此逻辑可能会变得太困难。在这种情况下,最好寻找更先进的数据捕获技术。市面上有相当多的 Data Captrue 产品,但我只知道一种以 API 形式提供的产品: http://www.abbyy.com/flexicapture_engine/

它有两个组件。一种是创建和调试文档描述的可视化工具。您只需描述文档中字段位置的逻辑,技术就会处理其余的事情:对不同的变体进行投票,处理重新输入中的错误等等。您可以定义多种替代文档结构和规则,以检查一个值是否与文档布局中的另一个值相对应。这些规则还将影响最佳识别变体的选择。

第二个组件实际上是API。您只需将其插入您的应用程序并加载文档模板描述即可。在移动识别场景中,它只能用作服务器后端处理,因为它太强大且笨重,不适合移动设备。然而,好的一面是您不必将其移植到每个移动操作系统,它使用全功能的 OCR 技术,而不是适合移动资源的受限技术。该工具包确实包含一些先进的图像处理技术,使其能够更好地处理手机捕获的图像。

免责声明:我为 ABBYY 工作。

关于iphone - 使用Iphone相机识别特定位置的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5783422/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com