gpt4 book ai didi

ocr - 机器打印文本的 ICR?

转载 作者:行者123 更新时间:2023-12-04 05:01:49 25 4
gpt4 key购买 nike

我知道 ICR 基本上用于手写(手工打印)数据识别,但我们可以利用 ICR 来提取扭曲(质量差)的机器打印文本吗?

如果不是什么是解决以下问题的最佳方法

我有一个非结构化文档,可能会包含 2 页或更多页,文档中几乎没有日期字段可以手写。现在我想将其转换为文本文件。
我尝试了一些整页 ocr(omnipage 和 abbyy 等)工具,它们具有 ICR 模块以转换为文本文件。
他们擅长整页 OCR,但是当遇到手写日期时,它会在其中放置垃圾字符而不是使用 ICR 模块。
我不想使用 parascript 和 A2ia 等基于位置的表单处理工具,它们仅适用于结构化文档。

或者我们可以使用 ICR 来转换机器打印的文本和手写的(无论如何在这种情况下它适用于手动返回日期)

在这里,我的目标是从非结构化文档中获取文本文件输出,手写文本很少(如日期、数字)

最佳答案

I have tried some fullpage ocr(omnipage and abbyy etc) tools which have ICR modules



这是不正确的,这解释了糟糕的结果。如果您尝试过零售版的 OmniPage 和 ABBYY FineReader,这些软件包只是 OCR,不支持 ICR。

I don't want go with form processing tools



您可能必须以某种方式这样做,但该方法有一些变体。这必须是两种技术的结合,要么是开箱即用的,要么是自创的,但它比仅仅安装和运行它需要更多的努力。

今天,假设没有可以提供高质量结果的非结构化文本 ICR 软件。全页 OCR 或非结构化文本 OCR(机器文本)在机器文本上产生高质量的结果,而在手写时产生垃圾。你说得对,ICR 意味着区域识别,它允许提供数据类型和后端字典以改进对手写的识别。

对于最简单、最快的方法,也可能是最经济且劳动强度最低的方法,我会使用非结构化表单处理包,例如 ABBYY FlexiCapture ( http://www.wisetrend.com/abbyy_flexicapture.shtml)。它需要一些非编程设置来“定位”区域。区域可能会改变位置,但该软件仍然会找到它们,然后使用适当的算法(OCR/ICR)来读取区域内容。支持 OCR、ICR、OMR(复选标记)、BCR(条形码)。还具有内置的整页 OCR。我在内部使用这个软件,转售它,并拥有超过 14 年的微调经验。

对于一种可能更经济的方式,但可能需要手动结合至少两种技术(两次购买而不是一加劳动力 - 在一天结束时可能不是最经济的),我会使用某种 OCR SDK 来处理机器文本,以及用于手写区域的某种具有 ICR 功能的 SDK。根据这些区域位置的一致性,您可能只能提供坐标。如果它们发生变化,则需要对区域位置进行更深入的分析,以将它们传递给 ICR。需要返回 ICR 识别的文本以插入到 OCRed 文本中的适当位置。

在我看来,现在有许多开箱即用的工具,我会使用开箱即用的东西而不是自己编写,因为有几个主要挑战需要解决:区域识别、两种技术集成、工作流.几年前,当当前工具不可用时,我们已经完成了这种集成。

关于ocr - 机器打印文本的 ICR?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16078393/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com