algorithm - 如何忽略没有意义的OCR Engine输出？-6ren

algorithm - 如何忽略没有意义的OCR Engine输出？

转载作者：塔克拉玛干更新时间：2023-11-03 03:38:30

25

4

Tesseract OCR 引擎有时会输出没有意义的文本，我想设计一个算法忽略任何没有意义的文本或单词，下面是我想忽略的某种输出文本，我的简单解决方案是计算识别文本中用“”分隔的单词和单词太多的文本将是垃圾(提示:我正在扫描最多包含 40 个单词的图像)任何想法都会有所帮助，谢谢。

 wo:>"|axnoA1wvw\
 ldﬂﬁg
 °J!9O‘ !P99W M9N 6 13!-|15!Cl ‘I-/Vl
 978 89l9 Z0 3+ 3 'l9.l.
 97 999 VLL lLOZ+ 3 9l!q°lN
 wo0'|axno/(@|au1e>1e: new;
 1=96r2a1ey\1 1uauud0|e/\e(]
 |8UJB){ p8UJL|\7'

最佳答案

将输出文本分成单词。将单词分成三组。计算三重频率，并与已知良好文本语料库的文本中的三重频率进行比较(例如，一些邮件列表中讨论您打算进行 OCR 的内容的所有文章，减去标题行)。

当我说“三元组”时，我的意思是:

whe, hen, i, say, tri, rip, ipl, ple, les, i, mea, ean

...因此“i”在这个简短示例中的频率为 2，而其他的都是频率 1。

如果您对使用您的目标语言的大型文档对这些三元组中的每一个进行频率计数，则应该可以相当准确地猜测字符串是否使用相同的语言。

当然，这是启发式的。

我在密码更改程序中使用了类似的方法来检测英文密码。它工作得很好，尽管没有完美的“明显密码拒绝器”这样的东西。

关于algorithm - 如何忽略没有意义的OCR Engine输出？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10180032/

25

4

0

文章推荐： java - gridbaglayout 的组件能否在调整大小时填充父框架？

文章推荐： algorithm - 求和间隔

django - unicorn 没 react
我正在使用 Gunicorn 为 Django 应用程序提供服务，它工作正常，直到我将其超时时间从 30 秒更改为 900000 秒，我不得不这样做，因为我有一个用例需要上传和处理一个巨大的文件(过程
docker - 没 Root过的Jenkins docker代理管道
我有一个带有非常基本的管道的Jenkinsfile，它可以旋转docker容器: pipeline { agent { dockerfile { args '-u root' } } stag
javascript - Passport 没 react ？
在学习 MEAN 堆栈的过程中，我遇到了一个问题。每当我尝试使用 Passport 验证方法时，它都不会返回任何响应。我总是收到“localhost没有发送任何数据。ERR_EMPTY_RESPONS
12个数据库安全故障和错误，看看你“踩雷”没?
在当今的大多数企业堆栈中，数据库是我们存储所有秘密的地方。它是安全屋，是待命室，也是用于存储可能非常私密或极具价值的物品的集散地。对于依赖它的数据库管理员、程序员和DevOps团队来说，保护它免受所
html - CSS 边框 - 没 Angular 框
是否可以创建像图片上那样的边框？只需使用 css 边框属性。最终结果将是没 Angular 盒子。我不想添加额外的 html 元素。我只想为每个 li 元素添加 css 边框信息。假设这是一个 ul

首页

博学

6Ren·AI

商城

algorithm - 如何忽略没有意义的OCR Engine输出？