gpt4 book ai didi

ocr - 贝叶斯类的数字识别

转载 作者:行者123 更新时间:2023-12-04 17:56:28 26 4
gpt4 key购买 nike

我只需要为数字编写一个 OCR 程序。我将使用 MNIST 数据集。问题是我不知道从哪里开始。有很多论文并没有真正解释算法。我对模式识别的了解并不多。所以我有几个问题。

Q1:在哪里可以找到算法(或教程)
Q2 : 我如何分类数字?我不需要很高级的东西。我想到的第一件事是找到上半部分/下半部分和左侧/右侧的比率。有没有更有用、更简单的分类方法。
Q3:什么是反向传播以及大多数论文中显示的层。我的简单 OCR 需要它们吗?

注意:我知道我的 OCR 程序不准确。暂时不是很重要。

最佳答案

如果离您最近的工程图书馆有关于图像处理、计算机视觉或机器视觉的部分,那么幸运的是,该图书馆将拥有一本我推荐用于 OCR 的书的副本:

字符识别系统 作者:Cheriet、Kharma、Liu 和 Suen

本书对 OCR 技术和最近的研究进行了相当全面的概述。它没有深入研究任何特定主题,但确实提供了对学术论文的引用。

确保您可以访问有关图像处理的优秀介绍性教科书。冈萨雷斯和伍兹的书是许多大学的标准:

数字图像处理 作者:冈萨雷斯和伍兹

即使是“简单”的 OCR 也会很快变得棘手。如果您在没有牢牢掌握基本的图像处理原理之前就跳入有关神经网络、贝叶斯定理等的类(class),这可能会让人不知所措。

如果可以,在尝试为手写字符编写算法之前,先尝试为机器打印的字符编写一种或多种 OCR 算法。

Q1:在哪里可以找到算法(或教程)

OCR 有多种算法。 Cheriet 的书将为您提供一个良好的开端。

Q2 : 我如何分类数字?我不需要很高级的东西。我想到的第一件事是找到上半部分/下半部分和左侧/右侧的比率。有没有更有用、更简单的分类方法。

尝试实现该技术,看看它的效果如何。即使实现的效果不如您希望的那样,在实现过程中吸取的经验教训也可以在以后对您有所帮助。

您还可以将字符分割为 2 x 2 网格或 3 x 3 网格并检查像素的相对密度。与机器打印的字符不同,手写字符不会在直线网格中很好地排列。

使用归一化相关的模板匹配很简单,对于单一已知字体的机器打印字符,它可以很好地工作。实现起来比较简单,值得学习:
http://en.wikipedia.org/wiki/Cross-correlation#Normalized_cross-correlation

对于 OCR,通常将样本中的字符作为初始步骤进行细化。细化是一种将字符(或任何其他形状)缩小为 1 像素宽的表示的技术。一旦有了细化的字符,就可以更容易地识别线和交叉点。如果您可以识别直线(或曲线)和相交,那么一种技术是查看每条直线相对于其他直线的相对位置和角度。

常见的细化算法包括 Stentiford 和 Zhang-Suen。有一个免费版本的 WinTopo 演示了这两种算法:
http://wintopo.com/

您可以查看有关“笔画提取”的学术论文,但这些技术往往更难以实现。

Q3:什么是反向传播以及大多数论文中显示的层。我的简单 OCR 需要它们吗?

这些术语指的是人工神经网络。对于简单的 OCR 算法,您将对识别逻辑进行硬编码或使用简单的训练方法。可以训练人工神经网络来识别软件中未硬编码的字符。
http://en.wikipedia.org/wiki/Neural_network

虽然您不需要学习人工神经网络来编写一个简单的 OCR 算法,但是一个简单的算法在手写字符上只能取得有限的成功。

最重要的是,请记住,手写字符的 OCR 是一个极其困难的问题。如果您可以通过简单的技术实现 20% 的手写字符读取率,那么您就成功了。

关于ocr - 贝叶斯类的数字识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8173912/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com