- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
这可能是一个非常愚蠢的问题,但我在任何地方都找不到详细信息。
所以我有一个 3 秒长的录音(wav 文件)。那是我的样本,它需要归类为 [class_A] 或 [class_B]。
通过遵循 MFCC 上的一些教程,我将样本分成帧(准确地说是 291 帧),并且我从每一帧中获得了 MFCC。
现在我有 291 个特征向量,每个向量的长度是 13。
我的问题是;您究竟如何将这些向量与分类器(例如 k-NN)一起使用?我有 291 个向量代表 1 个样本。我知道如何处理 1 个样本的 1 个向量,但如果我有 291 个向量,我不知道该怎么办。我真的找不到任何地方的解释。
最佳答案
您的每个向量都将代表您的音频文件的频谱特征,因为它会随时间变化。根据帧的长度,您可能希望对其中的一些进行分组(例如通过按维度求平均值)以匹配您希望分类器使用的分辨率。例如,考虑一个特定的声音,它的包络可能具有 2ms 的起音时间:这可能是您希望通过时间量化获得的细粒度,因此您可以 a) 对 MFCC 向量的数量进行分组和平均表示 2ms;或 b) 以所需的时间分辨率重新计算 MFCC。
如果你真的想保持分辨率那么好,你可以连接 291 个向量并将其视为单个向量(291 x 13 维),这可能需要一个巨大的数据集来训练。
关于audio - 如何使用 MFCC 向量对单个音频文件进行分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16546524/
我正在使用 Librosa 的函数 (librosa.feature.mfcc) 从音频文件中提取 MFCC,并且我正确地取回了一个具有我预期形状的 numpy 数组:13 个 MFCC 值对应音频文
我正在尝试让 tensorflow mfcc 给我与 python lybrosa mfcc 相同的结果我试图匹配 librosa 使用的所有默认参数在我的 tensorflow 代码中得到了不同的结
当我从音频中提取 MFCC 时,输出为 (13, 22)。数字代表什么?是时间范围吗?我使用 librosa。 使用的代码是: mfccs = librosa.feature.mfcc(y=X, sr
看了MFCC和Speech Recognition,有一点不明白。根据本页文档http://practicalcryptography.com/miscellaneous/machine-learni
我正在努力从一些音频文件中提取 MFCC 特征。我目前的程序为每个文件提取一系列MFCC,并且有一个缓冲区大小为1024的参数。我在一篇论文中看到以下内容: The feature vectors e
我的主要目标是将 mfcc 特征提供给 ANN。 但是我卡在了数据预处理步骤,我的问题分为两部分。 背景: 我有一个音频。我有一个 txt 文件,其中包含如下注释和时间戳: 0.0 2.5 Music
我了解创建自动语音识别引擎的基本步骤。但是,我需要更清楚地了解如何进行分割以及帧和样本是什么。我会写下我所知道的,并希望回答者在我错的地方纠正我并进一步指导我。 据我所知,语音识别的基本步骤是: (我
我正在使用 librosa 库将音乐片段转换为梅尔频谱图,以用作我的神经网络的输入,如文档 here 中所示。 . 这与 MFCCs 有什么不同,如果有的话?使用这两种方法有什么优点或缺点吗? 最佳答
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
能否从其 MFCC 系数中获取音频信号? MFCC 系数是否也有一个取值范围,如果有,它是什么?如果没有,您如何将它归一化在 0 到 1 之间。 我尝试使用以下 MATLAB 代码: http://l
这可能是一个非常愚蠢的问题,但我在任何地方都找不到详细信息。 所以我有一个 3 秒长的录音(wav 文件)。那是我的样本,它需要归类为 [class_A] 或 [class_B]。 通过遵循 MFCC
我有一个 MFCC 数据集,我知道它很好。我知道如何将行向量放入机器学习算法中。我的问题是如何使用 MFCC 来实现它,因为它是一个矩阵?例如,我如何将其放入机器学习算法中:? http://arch
我正在尝试构建用于生成 MFCC 的三角滤波器。我有基于 IPP 6 的现有代码,但随着 IPP 8 即将推出,我真的很想获得一个可以正常工作并且不依赖于现在不受支持的旧库的实现。 我已经生成了相关的
我使用 librosa 为我的音频文件创建了 mfcc,如下所示: import librosa y, sr = librosa.load('myfile.wav') print y print sr
我正在使用两个不同的库提取 MFCC 特征: python_speech_features 库 BOB 库 但是两者的输出是不同的,甚至形状也不一样。那是正常的吗?还是我缺少一个参数? 我的代码的相关
所以我知道什么是 MFCC(梅尔频率倒谱系数)。但我需要了解每个值是什么...它是某种声音频率值还是什么? 假设我们有这种矩阵。所以每一行代表一帧的系数,但这些数字是多少?它可能是最高频率还是什么?
简短:从 FFT 获取 MFCC 涉及哪些步骤。 详细: 我正在开发一个鼓应用程序来对声音进行分类。它是 iPhone 的一个匹配应用程序,具有用于声音处理的 openframeworks 库,其想法
我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件,我得到了一个具有 12 行(MFCC)和与语音帧数量一样多的列的矩阵中的 MFCC。我计算行的平均值,因此得
我正在研究说话人识别神经网络。 我正在做的是获取wav文件[Bing Bang Theory第一个espiode:-)],然后将其转换为MFCC coeffs,然后将其作为神经网络(MLPClassi
对于我最后一年的项目,我试图实时识别狗/吠声/鸟的声音(通过录制声音剪辑)。我使用 MFCC 作为音频功能。最初,我使用 jAudio 库从声音剪辑中总共提取了 12 个 MFCC 矢量。现在我正在尝
我是一名优秀的程序员,十分优秀!