gpt4 book ai didi

MFCC算法的Python实现

转载 作者:太空宇宙 更新时间:2023-11-03 10:52:29 30 4
gpt4 key购买 nike

我有一个包含视频流的数据库。我想从图像和 MFCC 音频中计算 LBP 特征,并且对于视频中的每一帧我都有一些注释。注释与视频帧和视频时间内联。因此,我想将注释中的时间映射到 mfcc 的结果。我知道 sample_rate = 44100

from python_speech_features import mfcc
from python_speech_features import logfbank
import scipy.io.wavfile as wav

audio_file = "sample.wav"
(rate,sig) = wav.read(audio_file)
mfcc_feat = mfcc(sig,rate)
print len(sig) # 2130912
print len(mfcc_feat) # 4831

首先,为什么 mfcc 长度的结果是 4831 以及如何在几秒钟内将其映射到我的注释中?视频总时长48秒。除了 19-29sec 的窗口外,视频的注释在任何地方都是 0。我如何从 mfcc 的结果中找到窗口 (19-29) 内的样本?

最佳答案

运行

 mfcc_feat.shape

你应该得到 (4831,13) 。 13 是您的 MFCC 长度(默认 numcep 是 13)。 4831是 window 。默认 winstep 为 10 毫秒,这与您的声音 文件持续时间相匹配。要得到对应于19-29秒的窗口,只需切片

mfcc_feat[1900:2900,:]

请记住,您无法收听 MFCC。它仅表示 0.025 秒的音频片段(winlen 参数的默认值)。

如果你想得到音频本身,那就是

sig[time_beg_in_sec*rate:time_end_in_sec*rate]

关于MFCC算法的Python实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47512800/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com