gpt4 book ai didi

ocr - 使用 HMM 进行离线字符识别

转载 作者:行者123 更新时间:2023-12-04 15:44:54 26 4
gpt4 key购买 nike

我已经从孤立字符的许多图像中提取了特征(例如梯度、相邻像素权重和几何属性。如何使用 HMM 作为对这些数据进行训练的分类器?我读到的所有关于 HMM 的文献都涉及状态和状态转换,但我可以'不要将它连接到特征和类标签。JAHMM 主页上的示例与我的问题无关。
我需要使用 HMM 不是因为它会比其他方法更好地解决这个问题,而是因为项目主题的限制。

有回复 this在线识别的问题,但我想要离线识别和更详细的信息

编辑:我将每个字符划分为一个具有固定数量方块的网格。现在我计划对每个网格块执行特征提取,从而通过从左到右和从上到下移动来获得每个样本的特征序列。

  • 这是否代表了 HMM 的足够“序列”,即 HMM 是否能够猜测数据的时间变化,即使字符不是从左到右和从上到下绘制的?如果没有建议另一种方式。
  • 我应该提供很多功能还是从几个开始?我如何知道 HMM 是否欠佳或功能是否不佳?我正在使用 JAHMM。
  • 提取笔画特征难,不能与网格特征逻辑结合? (因为 HMM 期望由某个随机过程生成的序列)
  • 最佳答案

    我经常看到用于此类识别任务的神经网络,即 here , here here , 和 here .由于一个简单的谷歌搜索在 OCR 中为神经网络提供了如此多的点击,我假设您已经开始使用 HMM(项目限制,对吗?)无论如何,这些链接可以提供一些有关网格化图像和获取图像特征的见解.

    您将网格转换为一系列观察值的方法是合理的。在这种情况下,请确保不要混淆观察和状态。你从一个块中提取的特征应该被收集到一个观察中,即一个特征向量。 (与语音识别相比,您的块的特征向量类似于与语音音素关联的特征向量。)您实际上并没有太多关于底层状态的信息。这是 HMM 的隐藏方面,训练过程应该告知模型一个特征向量跟随另一个特征向量的可能性(即转换概率)。

    由于这是一个离线过程,因此不必关心实际绘制字符的时间方面。出于您的任务的目的,您使用从左到右、从上到下的块序列对观察序列施加了时间顺序。这应该可以正常工作。

    至于 HMM 性能:选择一个合理的显着特征向量。在语音识别中,特征向量的维数可能很高(>10)。 (这也是引用文献可以提供帮助的地方。)留出一定比例的训练数据,以便您可以正确测试模型。首先,训练模型,然后在训练数据集上评估模型。对你的角色进行分类的程度如何?如果效果不佳,请重新评估特征向量。如果它在测试数据上表现良好,则通过在保留的测试数据上运行它来测试分类器的通用性。

    至于状态的数量,我将从启发式导出的数字开始。假设你的角色图像被缩放和标准化,也许像 40%(?)的块被占用?这是我粗略的猜测,因为没有提供源图像。对于 8x8 网格,这意味着 25 个块被占用。然后我们可以从 25 个状态开始——但这可能很幼稚:空块可以传达信息(意味着状态的数量可能会增加),但在类似的状态下可能会观察到一些特征集(意味着状态的数量可能会减少。)如果它如果是我,我可能会选择 20 个州之类的东西。话虽如此:小心不要混淆功能和状态。您的特征向量是在特定状态下观察到的事物的表示。如果上述测试显示您的模型性能不佳,请向上或向下调整状态数,然后重试。

    祝你好运。

    关于ocr - 使用 HMM 进行离线字符识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19747606/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com