- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想提取以 8000 Hz 采样、帧大小为 20 毫秒和 10 毫秒重叠的音频文件的 mfcc 特征。 librosa.feature.mfcc() 函数的参数必须是什么。下面编写的代码是否指定了具有 10 毫秒重叠的 20 毫秒 block ?
import librosa as l
x, sr = l.load('/home/user/Data/Audio/Tracks/Dev/FS_P01_dev_001.wav', sr = 8000)
mfccs = l.feature.mfcc(x, sr=sr, n_mfcc = 24, hop_length = 160)
音频文件为 1800 秒。这是否意味着我会为所有 (1800/0.01)-1 音频 block 获得 24 个 mfcc?
最佳答案
8000 Hz 下的 1800 秒显然是 1800 * 8000 = 14400000
样本。如果您的跳跃长度是 160,您将大致 14400000/160 = 90000
MFCC 值,每个值有 24 个维度。所以这显然不是 (1800/0.01) - 1 = 179999
(相差大约 2)。
请注意,我在计算中使用了粗略,因为我只使用了跳跃长度而忽略了窗口长度。跳跃长度是窗口每一步移动的样本数。您可以适应多少啤酒花取决于您是否以某种方式填充。如果您决定不填充,帧数也取决于您的窗口大小。
回到您的问题:您必须问自己有多少样本是 10 毫秒?
如果 1 s 包含 8000 个样本(这就是 8000 Hz 的意思),那么 0.01 s 中有多少个样本?那是 8000 * 0.01 = 80
个样本。
这意味着您有 80 个样本的跳跃长度和 160 个样本的窗口长度(0.02 秒 - 两倍长)。
现在您应该告诉 librosa 使用此信息,如下所示:
import librosa as l
x, sr = l.load('/home/user/Data/Audio/Tracks/Dev/FS_P01_dev_001.wav', sr = 8000)
n_fft = int(sr * 0.02) # window length: 0.02 s
hop_length = n_fft // 2 # usually one specifies the hop length as a fraction of the window length
mfccs = l.feature.mfcc(x, sr=sr, n_mfcc=24, hop_length=hop_length, n_fft=n_fft)
# check the dimensions
print(mfccs.shape)
希望这对您有所帮助。
关于feature-extraction - MFCC特征提取,Librosa,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56911774/
我正在使用 Librosa 的函数 (librosa.feature.mfcc) 从音频文件中提取 MFCC,并且我正确地取回了一个具有我预期形状的 numpy 数组:13 个 MFCC 值对应音频文
我正在尝试让 tensorflow mfcc 给我与 python lybrosa mfcc 相同的结果我试图匹配 librosa 使用的所有默认参数在我的 tensorflow 代码中得到了不同的结
当我从音频中提取 MFCC 时,输出为 (13, 22)。数字代表什么?是时间范围吗?我使用 librosa。 使用的代码是: mfccs = librosa.feature.mfcc(y=X, sr
看了MFCC和Speech Recognition,有一点不明白。根据本页文档http://practicalcryptography.com/miscellaneous/machine-learni
我正在努力从一些音频文件中提取 MFCC 特征。我目前的程序为每个文件提取一系列MFCC,并且有一个缓冲区大小为1024的参数。我在一篇论文中看到以下内容: The feature vectors e
我的主要目标是将 mfcc 特征提供给 ANN。 但是我卡在了数据预处理步骤,我的问题分为两部分。 背景: 我有一个音频。我有一个 txt 文件,其中包含如下注释和时间戳: 0.0 2.5 Music
我了解创建自动语音识别引擎的基本步骤。但是,我需要更清楚地了解如何进行分割以及帧和样本是什么。我会写下我所知道的,并希望回答者在我错的地方纠正我并进一步指导我。 据我所知,语音识别的基本步骤是: (我
我正在使用 librosa 库将音乐片段转换为梅尔频谱图,以用作我的神经网络的输入,如文档 here 中所示。 . 这与 MFCCs 有什么不同,如果有的话?使用这两种方法有什么优点或缺点吗? 最佳答
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
能否从其 MFCC 系数中获取音频信号? MFCC 系数是否也有一个取值范围,如果有,它是什么?如果没有,您如何将它归一化在 0 到 1 之间。 我尝试使用以下 MATLAB 代码: http://l
这可能是一个非常愚蠢的问题,但我在任何地方都找不到详细信息。 所以我有一个 3 秒长的录音(wav 文件)。那是我的样本,它需要归类为 [class_A] 或 [class_B]。 通过遵循 MFCC
我有一个 MFCC 数据集,我知道它很好。我知道如何将行向量放入机器学习算法中。我的问题是如何使用 MFCC 来实现它,因为它是一个矩阵?例如,我如何将其放入机器学习算法中:? http://arch
我正在尝试构建用于生成 MFCC 的三角滤波器。我有基于 IPP 6 的现有代码,但随着 IPP 8 即将推出,我真的很想获得一个可以正常工作并且不依赖于现在不受支持的旧库的实现。 我已经生成了相关的
我使用 librosa 为我的音频文件创建了 mfcc,如下所示: import librosa y, sr = librosa.load('myfile.wav') print y print sr
我正在使用两个不同的库提取 MFCC 特征: python_speech_features 库 BOB 库 但是两者的输出是不同的,甚至形状也不一样。那是正常的吗?还是我缺少一个参数? 我的代码的相关
所以我知道什么是 MFCC(梅尔频率倒谱系数)。但我需要了解每个值是什么...它是某种声音频率值还是什么? 假设我们有这种矩阵。所以每一行代表一帧的系数,但这些数字是多少?它可能是最高频率还是什么?
简短:从 FFT 获取 MFCC 涉及哪些步骤。 详细: 我正在开发一个鼓应用程序来对声音进行分类。它是 iPhone 的一个匹配应用程序,具有用于声音处理的 openframeworks 库,其想法
我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件,我得到了一个具有 12 行(MFCC)和与语音帧数量一样多的列的矩阵中的 MFCC。我计算行的平均值,因此得
我正在研究说话人识别神经网络。 我正在做的是获取wav文件[Bing Bang Theory第一个espiode:-)],然后将其转换为MFCC coeffs,然后将其作为神经网络(MLPClassi
对于我最后一年的项目,我试图实时识别狗/吠声/鸟的声音(通过录制声音剪辑)。我使用 MFCC 作为音频功能。最初,我使用 jAudio 库从声音剪辑中总共提取了 12 个 MFCC 矢量。现在我正在尝
我是一名优秀的程序员,十分优秀!