gpt4 book ai didi

algorithm - OCR的词距算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 03:14:24 29 4
gpt4 key购买 nike

我正在使用 OCR 输出并在其中搜索特殊单词。

由于输出不干净,我根据低于特定阈值的单词距离寻找与我的输入匹配的元素。

但是我觉得Levenshtein距离或者Hamming距离都不是最好的方式,因为OCR好像总是犯同样的错误:I代表1,0代表O,Q代表O……还有这些“经典”例如,错误似乎不如“A for K”重要。因此,这些距离不关心字符外观(低/高)的差异量。

是否有任何专为 OCR 设计的词距离算法可供我使用,它更适合我的情况?还是应该根据字符的视觉差异凭经验实现自定义词距?

最佳答案

Levenshtein 距离允许您为每个替换对指定不同的成本(http://en.wikipedia.org/wiki/Levenshtein_distance#Possible_modifications,第五项)。因此,您可以通过或多或少地强调常见错误来根据您的需要进行调整。

关于algorithm - OCR的词距算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22758770/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com