gpt4 book ai didi

algorithm - OCR纠错: How to combine three erroneous results to reduce errors

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:43:15 25 4
gpt4 key购买 nike

问题

我试图通过组合来自三个不同 OCR 系统(tesseract、cuneinform、ocrad)的输出来改进 OCR 过程的结果。我已经进行了图像预处理(歪斜校正、去 Blob 处理、阈值处理等)。我不认为这部分可以改进更多。通常要识别的文本长度在 1 到 6 个单词之间。文本的语言是未知的,而且它们经常包含幻想的词。我在 Linux 上。首选语言是 Python。

到目前为止我有什么

通常每个结果都有一两个错误。但是他们在不同的字符/位置有错误。错误可能是它们识别了错误的字符或包含了不存在的字符。他们通常不会忽略一个角色。

示例可能如下所示:

Xorem_ipsum
lorXYm_ipsum
lorem_ipuX

X 是识别错误的字符,Y 是文本中不存在的字符。空格被替换为“_”以提高可读性。

在这种情况下,我会尝试合并不同的结果。在三对之间重复使用“最长公共(public)子串”算法,我能够得到给定示例的以下结构

or m_ipsum
lor m_ip u
orem_ip u

但是我现在卡在这里了。我无法将这些部分组合成一个结果。

问题

你有吗

  • 如何结合不同的想法公共(public)最长子串?
  • 或者您对如何解决这个问题有更好的想法?

最佳答案

这完全取决于您使用的 OCR 引擎以及您期望获得的结果质量。您可能会发现,通过选择质量更高的 OCR 引擎来为您提供置信度和边界框,首先会为您提供更好的原始结果,然后提供可用于确定正确结果的额外信息。

使用 Linux 会限制您可用的 OCR 引擎。与 Windows 下可用的商业 OCR 引擎相比,我个人认为 Tesseract 的评分为 6.5/10。

http://www.abbyy.com/ocr_sdk_linux/overview/ - 虽然 SDK 可能并不便宜。

http://irislinktest.iriscorporate.com/c2-1637-189/iDRS-14-------Recognition--Image-preprocessing--Document-formatting-and-more.aspx - 适用于 Linux

http://www.rerecognition.com/ - 可作为 Linux 版本使用。许多其他公司都在使用该引擎。

与 Tesseract OCR 相比,上述所有引擎都应为您提供置信度、边界框和更好的结果。

https://launchpad.net/cuneiform-linux - 楔形文字,现已开源并在 Linux 下运行。这可能是您正在使用的三个引擎之一。如果没有,您可能应该考虑添加它。

您可能还想看看 http://tev.fbk.eu/OCR/Products.html更多选项。

您能否提供一两个典型图像样本以及来自引擎的 OCR 结果。还有其他方法可以改进 OCR 识别,但这取决于图像。

关于algorithm - OCR纠错: How to combine three erroneous results to reduce errors,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3683051/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com