- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我只需要为数字编写一个 OCR 程序。我将使用 MNIST 数据集。问题是我不知道从哪里开始。有很多论文并没有真正解释算法。我对模式识别的了解并不多。所以我有几个问题。
Q1:在哪里可以找到算法(或教程)
Q2 : 我如何分类数字?我不需要很高级的东西。我想到的第一件事是找到上半部分/下半部分和左侧/右侧的比率。有没有更有用、更简单的分类方法。
Q3:什么是反向传播以及大多数论文中显示的层。我的简单 OCR 需要它们吗?
注意:我知道我的 OCR 程序不准确。暂时不是很重要。
最佳答案
如果离您最近的工程图书馆有关于图像处理、计算机视觉或机器视觉的部分,那么幸运的是,该图书馆将拥有一本我推荐用于 OCR 的书的副本:
字符识别系统 作者:Cheriet、Kharma、Liu 和 Suen
本书对 OCR 技术和最近的研究进行了相当全面的概述。它没有深入研究任何特定主题,但确实提供了对学术论文的引用。
确保您可以访问有关图像处理的优秀介绍性教科书。冈萨雷斯和伍兹的书是许多大学的标准:
数字图像处理 作者:冈萨雷斯和伍兹
即使是“简单”的 OCR 也会很快变得棘手。如果您在没有牢牢掌握基本的图像处理原理之前就跳入有关神经网络、贝叶斯定理等的类(class),这可能会让人不知所措。
如果可以,在尝试为手写字符编写算法之前,先尝试为机器打印的字符编写一种或多种 OCR 算法。
Q1:在哪里可以找到算法(或教程)
OCR 有多种算法。 Cheriet 的书将为您提供一个良好的开端。
Q2 : 我如何分类数字?我不需要很高级的东西。我想到的第一件事是找到上半部分/下半部分和左侧/右侧的比率。有没有更有用、更简单的分类方法。
尝试实现该技术,看看它的效果如何。即使实现的效果不如您希望的那样,在实现过程中吸取的经验教训也可以在以后对您有所帮助。
您还可以将字符分割为 2 x 2 网格或 3 x 3 网格并检查像素的相对密度。与机器打印的字符不同,手写字符不会在直线网格中很好地排列。
使用归一化相关的模板匹配很简单,对于单一已知字体的机器打印字符,它可以很好地工作。实现起来比较简单,值得学习:
http://en.wikipedia.org/wiki/Cross-correlation#Normalized_cross-correlation
对于 OCR,通常将样本中的字符作为初始步骤进行细化。细化是一种将字符(或任何其他形状)缩小为 1 像素宽的表示的技术。一旦有了细化的字符,就可以更容易地识别线和交叉点。如果您可以识别直线(或曲线)和相交,那么一种技术是查看每条直线相对于其他直线的相对位置和角度。
常见的细化算法包括 Stentiford 和 Zhang-Suen。有一个免费版本的 WinTopo 演示了这两种算法:
http://wintopo.com/
您可以查看有关“笔画提取”的学术论文,但这些技术往往更难以实现。
Q3:什么是反向传播以及大多数论文中显示的层。我的简单 OCR 需要它们吗?
这些术语指的是人工神经网络。对于简单的 OCR 算法,您将对识别逻辑进行硬编码或使用简单的训练方法。可以训练人工神经网络来识别软件中未硬编码的字符。
http://en.wikipedia.org/wiki/Neural_network
虽然您不需要学习人工神经网络来编写一个简单的 OCR 算法,但是一个简单的算法在手写字符上只能取得有限的成功。
最重要的是,请记住,手写字符的 OCR 是一个极其困难的问题。如果您可以通过简单的技术实现 20% 的手写字符读取率,那么您就成功了。
关于ocr - 贝叶斯类的数字识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8173912/
fiddle :http://jsfiddle.net/rtucgv74/ 我正在尝试将第一个字符与 3 位数字匹配。所以下面的代码应该提醒f234。但反而返回 null ? 源代码: var reg
复制代码 代码如下: Dim strOk,strNo strOk = "12312321$12
我想找 {a number} / { a number } / {a string}模式。我可以得到number / number工作,但是当我添加 / string它不是。 我试图找到的例子: 15
我,我正在做一个模式正则表达式来检查字符串是否是: 数字.数字.数字,如下所示: 1.1.1 0.20.2 58.55541.5221 在java中我使用这个: private static Patt
我有一个字符串,我需要检查它是否在字符串的末尾包含一个数字/数字,并且需要将该数字/数字递增到字符串末尾 +1 我会得到下面的字符串 string2 = suppose_name_1 string3
我正在寻找一个正则表达式 (数字/数字),如(1/2) 数字必须是 1-3 位数字。我使用 Java。 我认为我的问题比正则表达式更深。我无法让这个工作 String s ="(1/15)";
谁能帮我理解为什么我在使用以下代码时会出现类型错误: function sumOfTwoNumbersInArray(a: [number, number]) { return a[0] +
我看到有些人过去也遇到过类似的问题,但他们似乎只是不同,所以解决方案也有所不同。所以这里是: 我正在尝试在 Google Apps 脚本中返回工作表的已知尺寸范围,如下所示: var myRange
我试图了解python中的正则表达式模块。我试图让我的程序从用户输入的一行文本中匹配以下模式: 8-13 之间的数字“/” 0-15 之间的数字 例如:8/2、11/13、10/9 等。 我想出的模式
简单地说,我当前正在开发的程序要求我拆分扫描仪输入(例如:2 个火腿和奶酪 5.5)。它应该读取杂货订单并将其分成三个数组。我应该使用 string.split 并能够将此输入分成三部分,而不管中间字
(number) & (-number) 是什么意思?我已经搜索过了,但无法找到含义 我想在 for 循环中使用 i & (-i),例如: for (i = 0; i 110000 .对于i没有高于
需要将图像ID设置为数字 var number = $(this).attr('rel'); number = parseInt(number); $('#carousel .slid
我有一个函数,我想确保它接受一个字符串,后跟一个数字。并且可选地,更多的字符串数字对。就像一个元组,但“无限”次: const fn = (...args: [string, number] | [s
我想复制“可用”输入数字的更改并将其添加或减去到“总计”中 如果此人将“可用”更改为“3”,则“总计”将变为“9”。 如果用户将“可用”更改为“5”,则“总计”将变为“11”。 $('#id1').b
我有一个与 R 中的断线相关的简单问题。 我正在尝试粘贴,但在获取(字符/数字)之间的断线时遇到问题。请注意,这些值包含在向量中(V1=81,V2=55,V3=25)我已经尝试过这段代码: cat(p
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我在 Typescript 中收到以下错误: Argument of type 'number[]' is not assignable to parameter of type 'number' 我
在本教程中,您将通过示例了解JavaScript 数字。 在JavaScript中,数字是基本数据类型。例如, const a = 3; const b = 3.13; 与其他一些编程语言不同
我在 MDN Reintroduction to JavaScript 上阅读JavaScript 数字只是浮点精度类型,JavaScript 中没有整数。然而 JavaScript 有两个函数,pa
我们在 Excel 中管理库存。我知道这有点过时,但我们正在发展商业公司,我们所有的钱都被困在业务上,没有钱投资 IT。 所以我想知道我可以用Excel自动完成产品编号的方式进行编程吗? 这是一个产品
我是一名优秀的程序员,十分优秀!