svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别？-6ren

svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别？

转载作者：行者123 更新时间：2023-12-02 02:40:58

26

4

我目前正处于语音识别的讨论阶段项目，我使用MFCC特征提取，但是从函数返回的MFCC特征是一个矩阵，例如每个语音文件(wav)的(20,38)特征矩阵。但是我如何将此功能传递给 SVM 分类器。对于 SVM(和其他分类器)，每个样本都由一个向量表示，对吗？但每个样本的 MFCC 特征是一个矩阵。假设 Xi 是样本 i 的 MFCC 特征，则样本 i 传递给 SVM 的特征为:1)一个20*38的向量，例如Xi(:) 的 matlab 形式。2)平均值(Xi)。3) Xi 中的一列或一行。哪种方式是正确的？有什么有用的代码、论文吗？

谢谢!闪耀

最佳答案

对于语音识别等序列标记任务，您需要结合使用 SVM 和 HMM，而不仅仅是 SVM

用GMM-HMM将特征矩阵与状态对齐，得到每个HMM状态对应的特征
根据属于每个状态的特征训练 SVM
实现 SVM-HMM 而不是 GMM-HMM

为了加快速度，请使用现有的工具包，例如:

http://www.cs.cornell.edu/people/tj/svm_light/svm_hmm.html

关于svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15158942/

26

4

0

文章推荐： c# - Unity 游戏在 IOS 上崩溃，但在 Android 上运行完美

文章推荐： java - 当我使用 admob android 时我应该包含哪些权限

文章推荐： java - 如何让Android应用程序保持活力

python - 从使用 librosa.feature.mfcc 生成的 MFCC 获取计时信息
我正在使用 Librosa 的函数 (librosa.feature.mfcc) 从音频文件中提取 MFCC，并且我正确地取回了一个具有我预期形状的 numpy 数组:13 个 MFCC 值对应音频文
audio - 是否有可能从 tensorflow mfcc 和 librosa mfcc 获得完全相同的结果？
我正在尝试让 tensorflow mfcc 给我与 python lybrosa mfcc 相同的结果我试图匹配 librosa 使用的所有默认参数在我的 tensorflow 代码中得到了不同的结
python - MFCC 数组中的第二个数字是多少？
当我从音频中提取 MFCC 时，输出为 (13, 22)。数字代表什么？是时间范围吗？我使用 librosa。使用的代码是: mfccs = librosa.feature.mfcc(y=X, sr
c++ - MFCC 中的时域信号
看了MFCC和Speech Recognition，有一点不明白。根据本页文档http://practicalcryptography.com/miscellaneous/machine-learni
java - 如何合并 MFCC
我正在努力从一些音频文件中提取 MFCC 特征。我目前的程序为每个文件提取一系列MFCC，并且有一个缓冲区大小为1024的参数。我在一篇论文中看到以下内容: The feature vectors e
python - 根据注释文件为音频片段生成 mfcc
我的主要目标是将 mfcc 特征提供给 ANN。但是我卡在了数据预处理步骤，我的问题分为两部分。背景: 我有一个音频。我有一个 txt 文件，其中包含如下注释和时间戳: 0.0 2.5 Music
speech-recognition - 如何在帧上分割语音数据并计算 MFCC
我了解创建自动语音识别引擎的基本步骤。但是，我需要更清楚地了解如何进行分割以及帧和样本是什么。我会写下我所知道的，并希望回答者在我错的地方纠正我并进一步指导我。据我所知，语音识别的基本步骤是: (我
spectrogram - 梅尔谱图和 MFCC 之间的区别
我正在使用 librosa 库将音乐片段转换为梅尔频谱图，以用作我的神经网络的输入，如文档 here 中所示。 . 这与 MFCCs 有什么不同，如果有的话？使用这两种方法有什么优点或缺点吗？最佳答
matlab - 匹配两个系列的 Mfcc 系数
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
audio - 我们可以从 MFCC 系数中恢复音频吗？
能否从其 MFCC 系数中获取音频信号？ MFCC 系数是否也有一个取值范围，如果有，它是什么？如果没有，您如何将它归一化在 0 到 1 之间。我尝试使用以下 MATLAB 代码: http://l
audio - 如何使用 MFCC 向量对单个音频文件进行分类？
这可能是一个非常愚蠢的问题，但我在任何地方都找不到详细信息。所以我有一个 3 秒长的录音(wav 文件)。那是我的样本，它需要归类为 [class_A] 或 [class_B]。通过遵循 MFCC
machine-learning - 使用机器学习算法训练 MFCC
我有一个 MFCC 数据集，我知道它很好。我知道如何将行向量放入机器学习算法中。我的问题是如何使用 MFCC 来实现它，因为它是一个矩阵？例如，我如何将其放入机器学习算法中:？ http://arch
c++ - 以与英特尔性能原语相同的方式构建 MFCC 滤波器组
我正在尝试构建用于生成 MFCC 的三角滤波器。我有基于 IPP 6 的现有代码，但随着 IPP 8 即将推出，我真的很想获得一个可以正常工作并且不依赖于现在不受支持的旧库的实现。我已经生成了相关的
python - 如何将 mfcc 向量与注释中的标签结合起来传递给神经网络
我使用 librosa 为我的音频文件创建了 mfcc，如下所示: import librosa y, sr = librosa.load('myfile.wav') print y print sr
python - 为什么 MFCC 提取库返回不同的值？
我正在使用两个不同的库提取 MFCC 特征: python_speech_features 库 BOB 库但是两者的输出是不同的，甚至形状也不一样。那是正常的吗？还是我缺少一个参数？我的代码的相关
neural-network - 什么是 MFCC 值？
所以我知道什么是 MFCC(梅尔频率倒谱系数)。但我需要了解每个值是什么...它是某种声音频率值还是什么？假设我们有这种矩阵。所以每一行代表一帧的系数，但这些数字是多少？它可能是最高频率还是什么？
logging - 如何从信号的 FFT 中获取 MFCC？
简短:从 FFT 获取 MFCC 涉及哪些步骤。详细: 我正在开发一个鼓应用程序来对声音进行分类。它是 iPhone 的一个匹配应用程序，具有用于声音处理的 openframeworks 库，其想法
machine-learning - 使用 MFCC 的简单单词检测器
我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件，我得到了一个具有 12 行(MFCC)和与语音帧数量一样多的列的矩阵中的 MFCC。我计算行的平均值，因此得
machine-learning - 如何提高我的神经网络准确率(说话人识别 - MFCC)
我正在研究说话人识别神经网络。我正在做的是获取wav文件[Bing Bang Theory第一个espiode:-)]，然后将其转换为MFCC coeffs，然后将其作为神经网络(MLPClassi
machine-learning - 如何使用 MFCC 系数向量训练机器学习算法？
对于我最后一年的项目，我试图实时识别狗/吠声/鸟的声音(通过录制声音剪辑)。我使用 MFCC 作为音频功能。最初，我使用 jAudio 库从声音剪辑中总共提取了 12 个 MFCC 矢量。现在我正在尝

首页

博学

6Ren·AI

商城

svm - 如何使用 mfcc 功能训练 svm 分类器进行语音识别？