audio - 为什么 librosa 中的情节不同？-6ren

audio - 为什么 librosa 中的情节不同？

转载作者：行者123 更新时间：2023-12-03 21:31:52

25

4

我目前正在尝试使用 librosa 来执行 stfft，这样参数类似于来自不同框架 (Kaldi) 的 stfft 进程。

音频文件是 fash-b-an251

Kaldi 使用 16 KHz 的采样频率、window_size = 400 (25ms)、hop_length=160 (10ms) 来实现。

从中提取的频谱图如下所示:

然后我尝试使用 librosa 做同样的事情:

import numpy as np
import sys
import librosa
import os
import scipy
import matplotlib.pyplot as plt
from matplotlib import cm


#   Input parameter
#   relative_path_to_file


if len(sys.argv) < 1:
    print "Missing Arguments!"
    print "python spectogram_librosa.py path_to_audio_file"
    sys.exit()

path = sys.argv[1]
abs_path = os.path.abspath(path)
spectogram_dnn = "/home/user/dnn/spectogram"

if not os.path.exists(spectogram_dnn):
    print "spectogram_dnn folder didn't exist!"
    os.makedirs(spectogram_dnn)
    print "Created!"

y,sr = librosa.load(abs_path,sr=16000)
D = librosa.logamplitude(np.abs(librosa.core.stft(y, win_length=400, hop_length=160, window=scipy.signal.hanning,center=False)), ref_power=np.max)
librosa.display.specshow(D,sr=16000,hop_length=160, x_axis='time', y_axis='log', cmap=cm.jet)
plt.colorbar(format='%+2.0f dB')
plt.title('Log power spectrogram')
plt.show()
raw_input()
sys.exit()

基本上取自 here :

在其中我修改了 stfft 函数，使其适合我的参数..
问题是创造了一个完全不同的情节..

那么.. 我在 librosa 中做错了什么？.. 为什么这个情节与 kaldi 中创建的情节如此不同。

我错过了什么吗？

最佳答案

它与赫兹标度有关。第一个图像中的一个是线性的，而第二个图像中的一个是对数的。您可以通过更改任一图像中的比例以匹配另一个图像来修复它。

关于audio - 为什么 librosa 中的情节不同？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41639511/

25

4

0

文章推荐：用于 SNAPSHOT 和 RELEASE Artifact 的 Maven 不同本地存储库

文章推荐： verilog - Verilog 中的 Casex 和 Casez

文章推荐： qt - Gnuplot:默认背景色终端 "qt"

文章推荐： npm - 如何将 NuGet 包转换为 npm

python - librosa 无法打开由 librosa 创建的 .wav 文件？
我正在尝试使用 librosa 通过从持续时间为 60 秒的某个 .wav 文件中剪切 1 秒的片段来生成一些数据。这部分有效，我创建了所有文件，我也可以通过任何播放器收听它们，但是如果我尝试使用
python - Librosa - 如何为立体声音频创建梅尔频谱图？
有一个代码可以为单声道音频生成梅尔谱图。 import librosa, librosa.display import matplotlib.pyplot as plt import numpy as
audio - librosa mfcc是否具有频率选择API
有没有可以让我选择传递给MFCC算法的频带的API？假设我有2个不同的麦克风，每个麦克风都有不同的频率范围，一个为0〜12000Hz，另一个为0〜20000Hz 显然，即使在录制以节省声源时，第一和
python - librosa.load返回什么信息？
我是信号处理的新手，并且正在使用librosa库。我想知道当我使用librosa.load函数读取音频(.wav)文件时返回的信息是什么。是pa中的瞬时声压吗？还是只是声音信号的瞬时幅度没有单位？
带有麦克风输入的 Python Librosa
所以我试图让 librosa 使用麦克风输入，而不仅仅是 wav 文件，并且遇到了一些问题。最初我使用 pyaudio 库连接到麦克风，但我在翻译这些数据以供 librosa 使用时遇到了问题。关于如
python - Librosa:过滤奈奎斯特以外的通带
Librosa Python 3.5在 8000Hhz 音频样本上出现错误: extract feature error. Filter pass-band lies beyond Nyquist 之
python - librosa 库出错
所以我在 IPython 中使用 librosa 库，到目前为止没有遇到任何问题，直到昨天未能导入它。特别是当我尝试导入 librosa 时，它会给我以下错误消息。 import librosa Im
python - Librosa 的采样率问题
当使用库 Librosa 在 16 位 44.1 khz 音频文件上执行 STFT，然后执行逆 STFT (iSTFT) 时: import librosa y, sr = librosa.load(
python - 为什么来自 librosa 库的频谱图与实际音轨的持续时间不同？
我正在尝试绘制 16000Hz 16 位 .wav 语音音频的波形图和频谱图。我已成功获得以下地 block : 但是，频谱图上的时间值不正确。我确定我的采样率在整个程序中是一致的 (16000Hz)
python - 我们如何提高 Librosa 中节奏检测的准确性？
我正在使用 native beat_track来自 Librosa 的函数: from librosa.beat import beat_track tempo, beat_frames = beat
python - 无法使用 librosa 加载音频文件
除非我使用 librosa 之一'.ogg' 格式的 native '示例'音频文件，我无法加载音频。每个 github 问题和 SO 答案都说我需要安装 ffmpeg。我找到了一个名为 ffmpe
matplotlib - Librosa mel 滤波器组递减三角形
我有点难以理解 MFCC。从我读到的 mel 滤波器组应该是一系列三角形，它们变得更宽并且它们的峰值在同一个地方。像这样... 但是，当我使用 librosa 计算 mel 滤波器组时，我得到...
audio - 为什么 librosa 中的情节不同？
我目前正在尝试使用 librosa 来执行 stfft，这样参数类似于来自不同框架 (Kaldi) 的 stfft 进程。音频文件是 fash-b-an251 Kaldi 使用 16 KHz 的采样
python - 无法导入Python librosa.display
我的python版本是3.7.4，而Librosa版本是0.8.0下面是我的代码: import librosa import librosa.display import matplotlib.py
python - 使用 librosa 隔离音频前景并转换回音频流
我正在尝试隔离音频流的前景，然后使用 librosa 将其保存为独立的音频流。从这个看似开始relevant example . 我有完整的前景和背景数据，就像 S_full 中的例子一样。 , S
python - 有没有办法使用 librosa 以字节为单位设置音频文件的样本大小？
在 AudioSegment来自 from pydub import AudioSegment ，有一个函数set_sample_width .从文档: Creates an equivalent v
python - 我可以将使用 librosa 生成的频谱图转换回音频吗？
我将一些音频文件转换为频谱图并使用以下代码将它们保存到文件中: import os from matplotlib import pyplot as plt import librosa import
python - 如何将 Librosa 光谱图保存为特定大小的图像？
所以我想将频谱图图像提供给卷积神经网络，以尝试对各种声音进行分类。我希望每个图像都是 384x128 像素。但是，当我实际保存图像时，它只有 297x98。这是我的代码: def save_spect
feature-extraction - MFCC特征提取，Librosa
我想提取以 8000 Hz 采样、帧大小为 20 毫秒和 10 毫秒重叠的音频文件的 mfcc 特征。 librosa.feature.mfcc() 函数的参数必须是什么。下面编写的代码是否指定了具有
feature-extraction - MFCC特征提取，Librosa
我想提取以 8000 Hz 采样、帧大小为 20 毫秒和 10 毫秒重叠的音频文件的 mfcc 特征。 librosa.feature.mfcc() 函数的参数必须是什么。下面编写的代码是否指定了具有

首页

博学

6Ren·AI

商城

audio - 为什么 librosa 中的情节不同？