gpt4 book ai didi

audio - 为什么 librosa 中的情节不同?

转载 作者:行者123 更新时间:2023-12-03 21:31:52 25 4
gpt4 key购买 nike

我目前正在尝试使用 librosa 来执行 stfft,这样参数类似于来自不同框架 (Kaldi) 的 stfft 进程。

音频文件是 fash-b-an251

Kaldi 使用 16 KHz 的采样频率、window_size = 400 (25ms)、hop_length=160 (10ms) 来实现。

从中提取的频谱图如下所示:

enter image description here
然后我尝试使用 librosa 做同样的事情:

import numpy as np
import sys
import librosa
import os
import scipy
import matplotlib.pyplot as plt
from matplotlib import cm


# Input parameter
# relative_path_to_file


if len(sys.argv) < 1:
print "Missing Arguments!"
print "python spectogram_librosa.py path_to_audio_file"
sys.exit()

path = sys.argv[1]
abs_path = os.path.abspath(path)
spectogram_dnn = "/home/user/dnn/spectogram"

if not os.path.exists(spectogram_dnn):
print "spectogram_dnn folder didn't exist!"
os.makedirs(spectogram_dnn)
print "Created!"

y,sr = librosa.load(abs_path,sr=16000)
D = librosa.logamplitude(np.abs(librosa.core.stft(y, win_length=400, hop_length=160, window=scipy.signal.hanning,center=False)), ref_power=np.max)
librosa.display.specshow(D,sr=16000,hop_length=160, x_axis='time', y_axis='log', cmap=cm.jet)
plt.colorbar(format='%+2.0f dB')
plt.title('Log power spectrogram')
plt.show()
raw_input()
sys.exit()

基本上取自 here :

在其中我修改了 stfft 函数,使其适合我的参数..
问题是创造了一个完全不同的情节..

enter image description here

那么.. 我在 librosa 中做错了什么?.. 为什么这个情节与 kaldi 中创建的情节如此不同。

我错过了什么吗?

最佳答案

它与赫兹标度有关。第一个图像中的一个是线性的,而第二个图像中的一个是对数的。您可以通过更改任一图像中的比例以匹配另一个图像来修复它。

关于audio - 为什么 librosa 中的情节不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41639511/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com