java - 用于训练 HMM 的 MFCC 数据格式-6ren

java - 用于训练 HMM 的 MFCC 数据格式

转载作者：行者123 更新时间：2023-11-30 04:46:47

24

4

我正在尝试使用 mfcc 功能和隐藏马尔可夫模型在 java 中开发一个音频分类系统。我正在关注这篇研究论文:http://acccn.net/cr569/Rstuff/keys/bathSoundMonitoring.pdf .

算法描述如下:

每个声音文件，对应于一个声音事件的样本，在通过具有重叠的汉明窗(25 ms)预强调和加窗的帧50%。由 13 阶 MFCC 组成的特征向量，每个特征向量框架。我们使用从左到右的六状态连续密度对每个声音进行建模没有状态跳跃的 HMM。每个 HMM 状态由两个高斯混合组成成分。模型初始化阶段完成后，所有 HMM 模型经过三个迭代周期的训练。

我已经完成了第一部分的工作，即从样本声音中提取特征。结果我得到了一个二维 double 组，每行由 13 列组成(每行代表声音的一个帧)。现在我的问题是如何使用这些数据来训练 hmm。

我正在使用 jahmm 库。到目前为止，我已经开发了一些示例代码来大致了解该库的工作原理。

/**Some sample data to act as the mfcc data. Here each line terminated by a new space
     * is one observation. I don't know whether each line should be one row from the mfcc values 
     * (representing one frame) or each line should be representing a set of features from one audio file.
     */
    String realSequences = "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n"
            + "1.1;2.2;3.3;4.4;5.5;6.6;7.7;8.8;9.9;10.0;11.1;12.2;13.3;\n";


    /**
     * This is the reader class that reads the data and puts then in a relevant collection format
     * 
     */
    Reader reader = new StringReader(realSequences);
    List<? extends List<ObservationReal>> sequences =
            ObservationSequencesReader.readSequences(new ObservationRealReader(), reader);
    reader.close();


    /**
     * As the description states that each state is composed of two Gaussian mixture components.
     */
    OpdfGaussianMixtureFactory gMixtureFactory = new OpdfGaussianMixtureFactory(2);

    /**
     * The manual for jahmm says that KMeans learner is a good way to initialize the hmm. It has 6 states
     * and uses the two gaussian mixture models created above.
     */
    KMeansLearner<ObservationReal> kml = new KMeansLearner<ObservationReal>(6, gMixtureFactory, sequences);
    Hmm<ObservationReal> initHmm = kml.iterate();


    /*
     * As the papers states the hmm is trained in 3 iterative cycles.
     */
    BaumWelchLearner bwl = new BaumWelchLearner();
    Hmm<ObservationReal> learntHmm = null;
    for (int i = 0; i < 3; i++) {
        learntHmm = bwl.iterate(initHmm, sequences);
    }

我的问题是:

Q1:mfcc数据应该以什么格式传递来训练hmm？ (参见 realSeuqences 行的评论)

Q2:在语音识别中，有时我们需要通过重复同一个单词(比如说 10 次)来训练系统。这是否意味着它用这 10 个样本训练了 1 个嗯？如果是，那么如何使用同一声音的不同样本来训练一个嗯。或者它是 10 个单独训练的嗯，但标有该词？

Q3:如何在声音识别方面比较两个 hmm 模型。使用维特比距离还是 Kullback Leibler 距离更好？

最佳答案

Q1: In what format the mfcc data should be passed to train the hmm? (See comments by the realSeuqences line)

MFCC 数据必须表示为:

List<? extends List<ObservationVector>> sequences

这是一个数据序列列表。每个序列对应于单词样本，是一个 vector 列表，每个 vector 代表一个帧并包含13个MFCC值。

Q2: In speech recognition sometimes we need to train the system by repeating the same word lets say 10 times. Does it mean it trains one hmm with those 10 samples?

输入数据是每个单词的序列列表。该列表是一起处理的。

If yes then how to train one hmm with different samples of the same sound. Or is it 10 separately trained hmm but labeled with that word?

这是一个隐马尔可夫模型。 hmm 训练算法适用于每个单词的多个样本。其实需要的样本还蛮多的，10多个。

Q3: How to compare two hmm models in terms of sound recognition. Is it better to use viterbi or Kullback Leibler Distance ?

这里的“比较”是什么意思不太清楚。你希望一个 HMM 的状态比另一个 HMM 的状态少还是什么？你想用什么属性来比较。答案取决于此。

而且，需要注意的是，语音识别 HMM 训练有一些特定性(如何选择状态数、使用哪些特征、如何初始化 HMM)。因此，为了获得最佳性能，最好使用 CMUSphinx ( http://cmusphinx.sourceforge.net ) 等专用工具包，而不是通用工具包。

关于java - 用于训练 HMM 的 MFCC 数据格式，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10799786/

24

4

0

文章推荐： java - 捕获大量 JTextField 的文本变化

文章推荐： java - 如何从图表创建最快的图像

文章推荐： java - 使用Spring集成从spymemcached获取超时

文章推荐： java - 运行 java 应用程序/小程序时出错

java - 用于 DMG 背景的自定义插入式图标，用于 MacOSX 上的应用程序打包
我在为 MacOSX 构建的独立包中添加 DMG 背景的自定义图标时遇到问题。我在项目的根目录中添加了一个包。正在从中加载自定义图标，但没有加载 DMG 背景图标。我正在使用 Java fx 2.2.
用于 Symbian VS 的 Qt。用于 MeeGo 的 Qt
Qt for Symbian 和 Qt for MeeGo 有什么区别？我知道 Qt 是一个交叉编译平台。这是否意味着如果我使用来自 Qt 的库，完全相同的库可以在所有支持 Qt 的设备(例如 Sym
用于 SQL 管理的 c# 命名空间，用于 sql server 备份
我正在尝试使用 C# .NET 3.5/4.0 务实地运行 SQL Server 数据库的备份。我已经找到了如何完成此操作，但是我似乎找不到用于备份的命名空间库。我正在寻找 Microsoft.Sq
java - 用于 Java 的开发服务器，就像 VS 用于 .NET 一样？
我最近在疯狂学习 Java，但我通常是一名 .NET 开发人员。 (所以请原谅我的新手问题。) 在 .Net 中，我可以在不使用 IIS 的情况下开发 ASP.Net 页面，因为它有一个简化的 Web
python - 正则表达式 (vim) 用于 print ... to print(...) 用于 python2 到 python3
这post仅当打印命令中有字符串时才有用。现在我有大量的源代码，其中包含一条声明，例如 print milk,butter 应该格式化为 print(milk,butter) 用\n 捕获行尾并不成功
ruby-on-rails - 未定义方法 `updated?' 用于 HasOneAssociation ，用于 Rails 4 中的嵌套属性
所以我的问题是: https://gist.github.com/panSarin/4a221a0923927115584a 当我保存这个表格时，我收到了标题中的错误 NoMethodError (u
javascript - 如何让 Html5 音频在点击时播放声音？ (ogg 用于 Firefox 等浏览器，mp3 用于 chrome 等浏览器)
如何让 Html5 音频在点击时播放声音？ (ogg 用于 Firefox 等浏览器，mp3 用于 chrome 等浏览器) 到目前为止，我可以通过 onclick 更改为单个文件类型，但我无法像在普
c++ - 将 .begin() 与 .end() 用于 std::inserter 用于 std::set 之间有区别吗？
如果it1和it2有什么区别？ std::set s; auto it1 = std::inserter(s, s.begin()); auto it2 = std::inserter(s, s.en
java - 我正在将 SpringMVC 用于 Web 应用程序，并将 sessionFactory 用于 Hibernate。以下是我正在使用的 pom.xml
4.0.0 com.amkit myapp SpringMVCFirst
javascript - 用于 ECMAScript-262 的 IDE，用于 node.js/V8 的 IDE 执行/调试
我目前使用 Eclipse 作为其他语言的 IDE，而且我习惯于不必离开 IDE 做任何事情 - 但是我真的很难为纯 ECMAScript-262 找到相同或类似的设置。澄清一下，我不是在寻找 DO
c# - 将带有字符串数组的 C# 结构传递给 c++ 函数，该函数接受 void * 用于 c# 结构和 char** 用于 c# 字符串数组
我想将带有字符串数组的C# 结构发送到C++ 函数，该函数接受void * 作为c# 结构和char** 作为c# 结构字符串数组成员。我能够将结构发送到 c++ 函数，但问题是，无法从 c++ 函
用于:param的JSF转换器
我正在使用动态创建的链接: 我想为f:param附加自定义转换器，以从＃{name}等中删除空格。但是f:param中没有转换器
.net - 用于.NET的写后缓存的Redis可扩展性
是否可以利用Redis为.NET创建后写或直写式缓存？理想情况下，透明的高速缓存是由单个进程写入的，并且支持从数据库加载丢失的数据，并每隔一段时间持久保存脏块？我已经搜查了好几个小时，也许是goog
bash - 多行ssh命令，用于
我正在通过bash执行命令的ssh脚本。 FILENAMES=( "export_production_20200604.tgz" "export_production_log_2020060
java - 用于 OR 两个范围正则表达式的正则表达式
我需要一个正则表达式来出现 0 到 7 个字母或 0 到 7 个数字。例如:匹配:1234、asdbs 不匹配:123456789、absbsafsfsf、asf12 我尝试了([a-zA-Z]{0
sql - 用于 BETWEEN 的日期列上的非聚集索引
我有一个用于会计期间的表格，该表格具有期间结束和开始的开始日期和结束日期。我使用此表来确定何时发生服务交易以及何时在查询中收集收入，例如... SELECT p.PeriodID, p.FiscalY
用于 Laravel 验证的仅接受单词或字母的正则表达式组合
我很难为只接受字符或数字的 Laravel 构建正则表达式验证。它是这样的: 你好<-好的 123 <- 好的你好123 <-不行我现在的正则表达式是这样的:[A-Za-z]|[0-9]。 reg
c# - 用于 OnItemDataBound
您实际上会在 Repeater 上使用 OnItemDataBound 做什么？最佳答案 “此事件为您提供在客户端显示数据项之前访问数据项的最后机会。引发此事件后，数据项将被清空，不再可用。” ~
用于 fragment 上自定义列表的android空指针异常设置适配器
我有一个 fragment 工作正常的项目，我正在使用 jeremyfeinstein 的 actionbarsherlock 和滑动菜单，一切正常，但是当我想自定义左侧抽屉列表单元格时，出现异常
iOS:用于 TabBar
最近几天，我似乎平均分配时间在构建我的第一个应用程序和在这里发布问题!! 这是我的第一个应用程序，也是我们的设计师完成的第一个应用程序。我试图满足他所做的事情的外观和感觉，但我认为他没有做适当的事情。

首页

博学

6Ren·AI

商城

java - 用于训练 HMM 的 MFCC 数据格式