ocr - 光学字符识别中的表示是什么？-6ren

ocr - 光学字符识别中的表示是什么？

转载作者：行者123 更新时间：2023-12-04 18:20:05

24

4

我正在学习OCR并阅读这本书https://www.amazon.com/Character-Recognition-Different-Languages-Computing/dp/3319502514

作者定义了 8 个过程来实现 OCR，这些过程一一遵循(2 在 1 之后，3 在 2 之后等):

光学扫描
位置分割
预处理
分割
代表
特征提取
认可
后处理

这就是他们写的关于表示的内容(#5)

The fifth OCR component is representation. The image representation plays one of the most important roles in any recognition system. In the simplest case, gray level or binary images are fed to a recognizer. However, in most of the recognition systems in order to avoid extra complexity and to increase the accuracy of the algorithms, a more compact and characteristic representation is required. For this purpose, a set of features is extracted for each class that helps distinguish it from other classes while remaining invariant to characteristic differences within the class.The character image representation methods are generally categorized into three major groups: (a) global transformation and series expansion (b) statistical representation and (c) geometrical and topological representation.

这是他们写的关于特征提取的内容(#6)

The sixth OCR component is feature extraction. The objective of feature extraction is to capture essential characteristics of symbols. Feature extraction is accepted as one of the most difficult problems of pattern recognition. The most straight forward way of describing character is by actual raster image. Another approach is to extract certain features that characterize symbols but leaves the unimportant attributes. The techniques for extraction of such features are divided into three groups’ viz. (a) distribution of points (b) transformations and series expansions and (c) structural analysis.

我完全糊涂了。我不明白什么是代表。据我了解，分割后我们必须从图像中提取一些特征，例如像弗里曼链码这样的拓扑结构，并且必须与在学习阶段模型中保存的一些特征相匹配——即进行识别。换句话说——分割——特征提取——识别。我不明白在代表阶段必须做什么。请解释。

最佳答案

表示组件采用分割生成的光栅图像并将其转换为更简单的格式(“表示”)，以保留类的特征属性。这是为了降低后面识别过程的复杂度。您提到的弗里曼链码就是这样一种表示。

一些(大多数？)作者将表示和特征提取合并为一个步骤，但您的书的作者选择将它们分开处理。更改表示形式不是强制性的，但这样做可以降低训练和识别步骤的复杂性，从而提高准确性。

正是从这个更简单的表示中，在特征提取步骤中提取了特征。提取哪些特征将取决于所选择的表示。本文- Feature Extraction Methods for Character Recognition - A Survey - 描述了 11 种不同的特征提取方法，可应用于 4 种不同的表示。

提取的特征是传递给训练器或识别器的特征。

关于ocr - 光学字符识别中的表示是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44396721/

24

4

0

文章推荐： sql - Hibernate HQL 相当于 Oracle 并行关键字

文章推荐： tfs - Team Foundation Server 对路径的访问...被拒绝

文章推荐： SQL Server 选择查询动态列输出

java - 在自动装箱中明确使用 l 表示 Long，D 表示 Double，F 表示 Float
Byte byte1=10; Short short1=20; Integer integer=30; 在上面的代码中自动装箱成功在这里查看下面的代码，我正在明确地进行 casitng，因为它默认将
java - 必须指定 L 表示 long、F、D 表示 float、double 的原因
这里有几个相关的问题。根据标题，如果我们将变量类型指定为 long 或 float、double，为什么它是一个要求？编译器不会在编译时评估变量的类型吗？ Java 将所有整型文字视为 int -
linux - Bash: '$(( ))' 表示 'expr' 和 '[ ]' 表示 'test'？
我最近一直在使用一些 bash 脚本，并且一直在浏览手册页。根据我收集到的信息，$(( )) 是否表示 expr 而 [ ] 是否表示 test？对于 $(( )): echo $(( 5 + 3
ios - UILabel 显示 1k 表示 int 值 1000 和 2k 表示 2000 等等
我有 UILabel，其中显示了 int 值，我希望如果值以千为单位，例如 1000，那么标签应该在 2000 年及以后显示 1k 和 2k。如何实现？最佳答案这个怎么样？ int myNum =
触发器的 verilog 表示
我正在自学 verilog 并尝试编写失败模型。我在指定部分遇到了以下 ck->q 延迟弧的建模，但无法理解它到底是做什么的。 (posege CK => (Q : 1'b1))=(0, 0); 谁能
文本中实体引用的 rdf 表示
考虑这样一个句子: John Smith travelled to Washington. 在美好的一天，名称标记者会将“约翰·史密斯”识别为一个人，将“华盛顿”识别为一个地方。然而，如果没有其他证据
javascript - && 表示 : AND, ||表示或
有没有办法通过某种元处理器或预处理器告诉 JavaScript 单词 AND 等于 && 而单词 OR 等于 ||和 <> 等同于 !===? 也许将 THEN 等同于 { 结束到不要! 最佳答案
c++ - 1亿节点大图的C++表示
我正在处理一个非常大的图，它有 5 亿个节点，节点的平均度为 100。所以它是一种稀疏图。我还必须存储每条边的权重。我目前正在使用两个 vector ，如下所示 // V could be 100 m
一组非重叠整数范围的 Python 表示
我想使用 Python 表示一组整数范围，其中可以动态修改该集合并测试其是否包含在内。具体来说，我想将其应用于文件中的地址范围或行号。我可以定义我关心的地址范围: 200 - 400 450 -
负整数的 Python 表示
>>> x = -4 >>> print("{} {:b}".format(x, x)) -4 -100 >>> mask = 0xFFFFFFFF >>> print("{} {:b}".forma
正则表达式表示非指定字符串开头的正则
虽然代码不多，但简单明了复制代码代码如下: preg_match('/^(?!string)/', 'aa') === true 这个用来验证一个字符串是否是非'string'开头的，
python - 表示 SQLAlchemy 中偏移日期的混合属性
我正在尝试创建一些 SQLAlchemy 模型，并且正在努力解决如何将 timedelta 正确应用于特定列的问题。 timedelta(以天为单位指定)作为整数存储在单独的表 (Shifts) 中，
http - 什么字节范围 0- 表示
“Range: bytes=0-” header 是什么意思？是整个文件吗？我尝试发回 0 个字节但没有成功，当我发送整个文件时它可以正常工作，但我在流式上下文中不止一次收到此请求，它看起来不正确。
sql - 时间序列的 SAX 表示
要创建时间序列的 SAX 表示，您首先需要计算数据的 PAA(分段聚合近似)，然后将答案映射到符号表。但是，在计算 PAA 之前，您需要对数据进行标准化。我正在对数据进行标准化，但我不知道之后如何计
rest - transient REST 表示
假设我有一个 RESTful、超文本驱动的服务来模拟冰淇淋店。为了帮助更好地管理我的商店，我希望能够显示每日报告，列出所售每种冰淇淋的数量和美元值(value)。这种报告功能似乎可以作为名为 Dai
nlp - 句子的 RDF 表示
我需要以 RDF 格式表示句子。换句话说，“约翰喜欢可乐”将自动表示为: Subject : John Predicate : Likes Object : Coke 有谁知道我应该从哪里开始？是否
d - 表示 D 中的可选值
我即将编写一个解析器，将文本文件逐行读取到不同类型的结构中，并将这些结构提供给回调(观察者或访问者 - 尚不确定)。文本文件包含 MT-940 数据 - SWIFT 银行对帐单。这些行由一个指定类
python - 表示 "doubled"枚举值的最佳方式
我主要是一名 C++ 开发人员，但我经常编写 Python 脚本。我目前正在为游戏编写骰子模拟器，但我不确定在 Python 中解决我的问题的最佳方法。一共有三种玩家技能，每个玩家一强、中一、弱一。
XOR 的数学(算术)表示
在过去的 5 个小时里，我一直在寻找答案。尽管我找到了很多答案，但它们并没有以任何方式提供帮助。我基本上要寻找的是任何 32 位无符号整数的按位异或运算符的数学、算术唯一表示。尽管这听起来很简单，
sql - 表示 DAG(有向无环图)
我需要将依赖项存储在 DAG 中。 (我们正在细粒度地规划新的学校类(class)) 我们正在使用 rails 3 注意事项宽于深很大我估计每个节点有 5-10 个链接。随着系统的增长，这将增加

首页

博学

6Ren·AI

商城

ocr - 光学字符识别中的表示是什么？