gpt4 book ai didi

ocr - 基本 OCR 后处理(拼写校正器)

转载 作者:行者123 更新时间:2023-12-01 06:51:12 25 4
gpt4 key购买 nike

我正在设置一个服务器来使用 tesseract 进行大量自动 OCR,并且我想对结果进行一些后处理。

在理论方面有很多关于此的资源,但在实践方面我没有找到太多资源。

我想你可以做一些基本的事情,比如:

  • 连续消除三个相同的字母
  • 用所有元音消除“单词”
  • 消除超过一定长度的“单词”

  • 我没有想太多,但是经过 OCR 处理的文本会被输入到搜索系统中,因此保持字图较小是一件好事,消除或修复明显错误的单词也是如此。

    如果重要的话,内容本身就是用英文写成的法庭文件。所以时不时有专名,但词的种类可能并不多,字体也可能很稳定。

    我应该知道任何指示或好的资源?

    最佳答案

    每个 OCR 引擎都有自己的一组常见错误,这些错误还取决于文档中的字体、扫描质量、使用的 dpi、颜色背景和使用的图像预处理,例如去斑、去歪斜、去除线条。您只能通过执行大量测试运行并分析结果以查找一组常见错误来了解这些错误是什么。

    使用正确的扫描仪设置和图像预处理算法可以显着改善 OCR 结果。不要低估这部分。

    如果文本主要是英语单词,那么带有模糊类型查找系统的好的词典将非常有帮助。其他有用的技术是使用第二个 OCR 引擎进行三元组分析和投票。

    关于ocr - 基本 OCR 后处理(拼写校正器),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8982119/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com