gpt4 book ai didi

algorithm - OCR纠错算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:17:33 27 4
gpt4 key购买 nike

我正在对大量扫描文档进行数字化处理,使用 Tesseract 3 作为我的 OCR 引擎。其输出质量一般,因为它经常在实际文本前后产生乱码,并在文本中产生拼写错误。

对于前一个问题,似乎必须有策略来确定哪些文本实际上是文本,哪些文本不是(大部分文本都是人名之类的东西,所以我正在寻找除了查找之外的解决方案词典中的单词)。

对于拼写错误问题,大部分错误源于字母的一些错误分类(将 l1I 替换为一个另一个,例如),似乎应该有一些方法来猜测哪些单词拼写错误(因为英语中没有太多单词中间有“1”),并猜测适当的更正是什么。

这个领域的最佳实践是什么?是否有执行此类操作的算法的免费/开源实现?谷歌已经发表了很多论文,但具体的并不多。如果没有可用的实现,那么众多论文中的哪一篇是一个好的起点?

最佳答案

对于“确定哪些文本实际上是文本,哪些文本不是”,您可能需要查看来自开发 Tesseract (ISRI) 的同一部门的 rmgarbage。我写了一个 Perl implementation还有一个 Ruby 实现。对于 1 对 l 问题,我正在尝试使用 ocrspell(同样来自同一部门),为此 their original source可用。

我只能发布两个链接,所以缺少的是:

  • ocrspell : 在 dx.doi.org 输入“10.1007/PL00013558”]
  • rmgarbage : 搜索“自动去除 OCR 文本中的垃圾字符串:一种实现”
  • ruby implementation : 搜索“docsplit textcleaner”

关于algorithm - OCR纠错算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5656462/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com