gpt4 book ai didi

algorithm - OCR分词

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:09:23 26 4
gpt4 key购买 nike

我正在开发一个 OCR 系统,在分词方面需要一些帮助。

目前,OCR 系统检测一行中的 Blob (使用连通分量标记算法)。每个 Blob 代表一个单独的字母,周围有一个边界框。某些字符可能会在其边界框中重叠。

如何将这些字母连接成单词?如何确定将单词彼此分开的最佳距离,以便:1.话不会被砍2.单词不会与其他单词连接据我所见 - 字母和单词之间的距离可能相差很大。

这部分是在字母分类之前完成的,所以不可能按实际词义来区分。

谢谢!

最佳答案

如果您绘制每个垂直像素列的直方图,您可能会发现单词之间的间隔往往是最低的。如果您坚持在字母本身之前处理单词分隔符,那么将这种与某种二元分类器结合在一起的技术可能是一个很好的起点。 (例如,您可以使用此直方图来权衡语料库中单词的平均长度。)

参见:http://www.ijcaonline.org/rtippr/number1/SPE96T.pdf

关于algorithm - OCR分词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14714802/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com