feature-extraction - MFCC特征提取，Librosa-6ren

feature-extraction - MFCC特征提取，Librosa

转载作者：行者123 更新时间：2023-12-02 00:16:09

24

4

我想提取以 8000 Hz 采样、帧大小为 20 毫秒和 10 毫秒重叠的音频文件的 mfcc 特征。 librosa.feature.mfcc() 函数的参数必须是什么。下面编写的代码是否指定了具有 10 毫秒重叠的 20 毫秒 block ？

import librosa as l

x, sr = l.load('/home/user/Data/Audio/Tracks/Dev/FS_P01_dev_001.wav', sr = 8000)
mfccs = l.feature.mfcc(x, sr=sr, n_mfcc = 24, hop_length = 160)

音频文件为 1800 秒。这是否意味着我会为所有 (1800/0.01)-1 音频 block 获得 24 个 mfcc？

最佳答案

8000 Hz 下的 1800 秒显然是 1800 * 8000 = 14400000 样本。如果您的跳跃长度是 160，您将大致 14400000/160 = 90000 MFCC 值，每个值有 24 个维度。所以这显然不是 (1800/0.01) - 1 = 179999(相差大约 2)。

请注意，我在计算中使用了粗略，因为我只使用了跳跃长度而忽略了窗口长度。跳跃长度是窗口每一步移动的样本数。您可以适应多少啤酒花取决于您是否以某种方式填充。如果您决定不填充，帧数也取决于您的窗口大小。

回到您的问题:您必须问自己有多少样本是 10 毫秒？

如果 1 s 包含 8000 个样本(这就是 8000 Hz 的意思)，那么 0.01 s 中有多少个样本？那是 8000 * 0.01 = 80 个样本。

这意味着您有 80 个样本的跳跃长度和 160 个样本的窗口长度(0.02 秒 - 两倍长)。

现在您应该告诉 librosa 使用此信息，如下所示:

import librosa as l

x, sr = l.load('/home/user/Data/Audio/Tracks/Dev/FS_P01_dev_001.wav', sr = 8000)
n_fft = int(sr * 0.02)   # window length: 0.02 s
hop_length = n_fft // 2  # usually one specifies the hop length as a fraction of the window length
mfccs = l.feature.mfcc(x, sr=sr, n_mfcc=24, hop_length=hop_length, n_fft=n_fft)
# check the dimensions
print(mfccs.shape)

希望这对您有所帮助。

关于feature-extraction - MFCC特征提取，Librosa，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56911774/

24

4

0

文章推荐： python - 在 Python/GeoPandas 中组合 shapefile

文章推荐： python - 以科学记数法显示的注释

文章推荐： reactjs - 如何使用fetch实现常用API调用功能

文章推荐： php - 通过 HTTP API 将大文件上传到 Dropbox

python - 从使用 librosa.feature.mfcc 生成的 MFCC 获取计时信息
我正在使用 Librosa 的函数 (librosa.feature.mfcc) 从音频文件中提取 MFCC，并且我正确地取回了一个具有我预期形状的 numpy 数组:13 个 MFCC 值对应音频文
audio - 是否有可能从 tensorflow mfcc 和 librosa mfcc 获得完全相同的结果？
我正在尝试让 tensorflow mfcc 给我与 python lybrosa mfcc 相同的结果我试图匹配 librosa 使用的所有默认参数在我的 tensorflow 代码中得到了不同的结
python - MFCC 数组中的第二个数字是多少？
当我从音频中提取 MFCC 时，输出为 (13, 22)。数字代表什么？是时间范围吗？我使用 librosa。使用的代码是: mfccs = librosa.feature.mfcc(y=X, sr
c++ - MFCC 中的时域信号
看了MFCC和Speech Recognition，有一点不明白。根据本页文档http://practicalcryptography.com/miscellaneous/machine-learni
java - 如何合并 MFCC
我正在努力从一些音频文件中提取 MFCC 特征。我目前的程序为每个文件提取一系列MFCC，并且有一个缓冲区大小为1024的参数。我在一篇论文中看到以下内容: The feature vectors e
python - 根据注释文件为音频片段生成 mfcc
我的主要目标是将 mfcc 特征提供给 ANN。但是我卡在了数据预处理步骤，我的问题分为两部分。背景: 我有一个音频。我有一个 txt 文件，其中包含如下注释和时间戳: 0.0 2.5 Music
speech-recognition - 如何在帧上分割语音数据并计算 MFCC
我了解创建自动语音识别引擎的基本步骤。但是，我需要更清楚地了解如何进行分割以及帧和样本是什么。我会写下我所知道的，并希望回答者在我错的地方纠正我并进一步指导我。据我所知，语音识别的基本步骤是: (我
spectrogram - 梅尔谱图和 MFCC 之间的区别
我正在使用 librosa 库将音乐片段转换为梅尔频谱图，以用作我的神经网络的输入，如文档 here 中所示。 . 这与 MFCCs 有什么不同，如果有的话？使用这两种方法有什么优点或缺点吗？最佳答
matlab - 匹配两个系列的 Mfcc 系数
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
audio - 我们可以从 MFCC 系数中恢复音频吗？
能否从其 MFCC 系数中获取音频信号？ MFCC 系数是否也有一个取值范围，如果有，它是什么？如果没有，您如何将它归一化在 0 到 1 之间。我尝试使用以下 MATLAB 代码: http://l
audio - 如何使用 MFCC 向量对单个音频文件进行分类？
这可能是一个非常愚蠢的问题，但我在任何地方都找不到详细信息。所以我有一个 3 秒长的录音(wav 文件)。那是我的样本，它需要归类为 [class_A] 或 [class_B]。通过遵循 MFCC
machine-learning - 使用机器学习算法训练 MFCC
我有一个 MFCC 数据集，我知道它很好。我知道如何将行向量放入机器学习算法中。我的问题是如何使用 MFCC 来实现它，因为它是一个矩阵？例如，我如何将其放入机器学习算法中:？ http://arch
c++ - 以与英特尔性能原语相同的方式构建 MFCC 滤波器组
我正在尝试构建用于生成 MFCC 的三角滤波器。我有基于 IPP 6 的现有代码，但随着 IPP 8 即将推出，我真的很想获得一个可以正常工作并且不依赖于现在不受支持的旧库的实现。我已经生成了相关的
python - 如何将 mfcc 向量与注释中的标签结合起来传递给神经网络
我使用 librosa 为我的音频文件创建了 mfcc，如下所示: import librosa y, sr = librosa.load('myfile.wav') print y print sr
python - 为什么 MFCC 提取库返回不同的值？
我正在使用两个不同的库提取 MFCC 特征: python_speech_features 库 BOB 库但是两者的输出是不同的，甚至形状也不一样。那是正常的吗？还是我缺少一个参数？我的代码的相关
neural-network - 什么是 MFCC 值？
所以我知道什么是 MFCC(梅尔频率倒谱系数)。但我需要了解每个值是什么...它是某种声音频率值还是什么？假设我们有这种矩阵。所以每一行代表一帧的系数，但这些数字是多少？它可能是最高频率还是什么？
logging - 如何从信号的 FFT 中获取 MFCC？
简短:从 FFT 获取 MFCC 涉及哪些步骤。详细: 我正在开发一个鼓应用程序来对声音进行分类。它是 iPhone 的一个匹配应用程序，具有用于声音处理的 openframeworks 库，其想法
machine-learning - 使用 MFCC 的简单单词检测器
我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件，我得到了一个具有 12 行(MFCC)和与语音帧数量一样多的列的矩阵中的 MFCC。我计算行的平均值，因此得
machine-learning - 如何提高我的神经网络准确率(说话人识别 - MFCC)
我正在研究说话人识别神经网络。我正在做的是获取wav文件[Bing Bang Theory第一个espiode:-)]，然后将其转换为MFCC coeffs，然后将其作为神经网络(MLPClassi
machine-learning - 如何使用 MFCC 系数向量训练机器学习算法？
对于我最后一年的项目，我试图实时识别狗/吠声/鸟的声音(通过录制声音剪辑)。我使用 MFCC 作为音频功能。最初，我使用 jAudio 库从声音剪辑中总共提取了 12 个 MFCC 矢量。现在我正在尝

首页

博学

6Ren·AI

商城

feature-extraction - MFCC特征提取，Librosa