gpt4 book ai didi

algorithm - 如何忽略没有意义的OCR Engine输出?

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:38:30 25 4
gpt4 key购买 nike

Tesseract OCR 引擎有时会输出没有意义的文本,我想设计一个算法忽略任何没有意义的文本或单词,下面是我想忽略的某种输出文本,我的简单解决方案是计算识别文本中用“”分隔的单词和单词太多的文本将是垃圾(提示:我正在扫描最多包含 40 个单词的图像)任何想法都会有所帮助,谢谢。

 wo:>"|axnoA1wvw\
ldflfig
°J!9O‘ !P99W M9N 6 13!-|15!Cl ‘I-/Vl
978 89l9 Z0 3+ 3 'l9.l.
97 999 VLL lLOZ+ 3 9l!q°lN
wo0'|axno/(@|au1e>1e: new;
1=96r2a1ey\1 1uauud0|e/\e(]
|8UJB){ p8UJL|\7'

最佳答案

将输出文本分成单词。将单词分成三组。计算三重频率,并与已知良好文本语料库的文本中的三重频率进行比较(例如,一些邮件列表中讨论您打算进行 OCR 的内容的所有文章,减去标题行)。

当我说“三元组”时,我的意思是:

whe, hen, i, say, tri, rip, ipl, ple, les, i, mea, ean

...因此“i”在这个简短示例中的频率为 2,而其他的都是频率 1。

如果您对使用您的目标语言的大型文档对这些三元组中的每一个进行频率计数,则应该可以相当准确地猜测字符串是否使用相同的语言。

当然,这是启发式的。

我在密码更改程序中使用了类似的方法来检测英文密码。它工作得很好,尽管没有完美的“明显密码拒绝器”这样的东西。

关于algorithm - 如何忽略没有意义的OCR Engine输出?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10180032/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com