gpt4 book ai didi

algorithm - 手势识别的HMM算法

转载 作者:塔克拉玛干 更新时间:2023-11-03 02:39:22 27 4
gpt4 key购买 nike

我想开发一款使用 Kinect 和隐马尔可夫模型 进行手势识别的应用程序。我在这里看了一个教程:HMM lecture

但我不知道如何开始。什么是状态集,如何归一化数据才能实现HMM学习?我(或多或少)知道应该如何处理信号和简单的“从左到右”情况,但 3D 空间让我有点困惑。谁能描述它应该如何开始?

谁能描述一下步骤,怎么做?特别是我需要知道如何制作模型以及HMM 算法的步骤。

最佳答案

将 HMM 应用于手势识别的一组方法是应用与语音识别常用的类似架构。

HMM 不会在空间上而是在时间上,每个视频帧(或从帧中提取的特征集)都是 HMM 状态的发射。

不幸的是,基于 HMM 的语音识别是一个相当大的领域。许多书籍和论文描述了不同的架构。我建议从 Jelinek 的“语音识别统计方法”(http://books.google.ca/books?id=1C9dzcJTWowC&pg=PR5#v=onepage&q&f=false) 开始,然后按照那里的引用资料进行操作。另一个资源是 CMU sphinx 网页 ( http://cmusphinx.sourceforge.net )。

另一件要记住的事情是,基于 HMM 的系统可能不如条件随机场或最大间隔识别器(例如 SVM 结构)等判别方法准确。

对于基于 HMM 的识别器,整个训练过程通常如下所示:

1) 对原始数据进行某种信号处理

  • 对于语音,这将涉及将原始音频转换为梅尔倒谱格式,而对于手势,这可能涉及提取图像特征(SIFT、GIST 等)

2)对处理后的数据应用矢量量化(VQ)(也可以使用其他降维技术)

  • 每个集群质心通常与任务的一个基本单元相关联。例如,在语音识别中,每个质心都可以与一个音素相关联。对于手势识别任务,每个 VQ 质心都可以与姿势或手部配置相关联。

3) 手动构建 HMM,其状态转换捕获手势中不同姿势的序列。

  • 这些 HMM 状态的发射分布将以步骤 2 中的 VQ 向量为中心。

  • 在语音识别中,这些 HMM 是根据给出每个单词的音素序列的音素词典构建的。

4) 构造一个单一的 HMM,其中包含每个单独的手势 HMM 之间的转换(或者在语音识别的情况下,每个音素 HMM)。然后,用手势视频训练复合 HMM。

  • 此时也可以在联合训练步骤之前单独训练每个手势 HMM。这个额外的训练步骤可能会产生更好的识别器。

对于识别过程,应用信号处理步骤,为每个帧找到最近的 VQ 条目,然后通过 HMM 找到高分路径(Viterbi 路径,或来自 A* 搜索的一组路径之一) 给定量化向量。此路径给出了视频中的预测手势。

关于algorithm - 手势识别的HMM算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14572472/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com