gpt4 book ai didi

java - 使用 LIUM 进行语音 Activity 检测 (VAD/SAR)

转载 作者:行者123 更新时间:2023-11-30 03:07:57 27 4
gpt4 key购买 nike

我编写了一个 shell 脚本来训练多个 GMM 进行某些类型的语音 Activity 和静音。因此我使用了 LIUM 说话人分类工具包。我想用它来进行语音 Activity 检测。以下脚本使用 Sphinx4 从 wav 音频文件中提取 MFCC 特征,在这些特征上训练 GMM,并应用 Viterbi 解码进行分段。然而,结果非常差,即得到的分割完全错误。绝对不应该是这样,因为我正在训练集本身上应用 GMM。我究竟做错了什么?我为此付出了很多努力,但仍然无法使其发挥作用。非常感谢您提前提供的任何帮助!

顺便说一句:我仔细检查了我的 wav 文件的输入格式,根据 Sphinx4 文档,该文件是单声道 16 位 LE。此外,我尝试了许多不同的参数设置,特别是 emCtrl(GMM 训练)和 dPenalty(用于分割的维特比解码)等参数。对我没有任何帮助。

这是我的 shell 脚本:

# !/bin/bash

wav=$1
base=`basename $wav .wav`
show=$base
fDescIn="audio16kHz2sphinx,1:1:0:0:0:0,13,0:0:0"
fDescOut="sphinx,1:1:0:0:0:0,13,0:0:0"
features="./%s.mfcc"
seg="./%s.seg"
gmmInit="./%s.init.gmms" # output GMM, %s is replaced by $show
gmm="./%s.gmms"

# Extract MFCC features
java -Xmx2048m -classpath lium.jar \
fr.lium.spkDiarization.tools.Wave2FeatureSet \
--fInputMask=$wav --sInputMask="" --fInputDesc=$fDescIn \
--fOutputMask=$base.mfcc --fOutputDesc=fDescOut $show

# Initialize the GMM
java -Xmx1024m -cp lium.jar \
fr.lium.spkDiarization.programs.MTrainInit \
--sInputMask=$show".seg" --fInputMask=$base.mfcc
--fInputDesc=$fDescOut --kind=DIAG --nbComp=16 \
--emInitMethod=split_all --emCtrl=1,5,0.05 --tOutputMask=$gmmInit $show

# Train GMMs via EM
java -Xmx1024m -cp lium.jar \
fr.lium.spkDiarization.programs.MTrainEM \
--sInputMask=$show".seg" --fInputMask=$base.mfcc --emCtrl=10,20,0.01 \
--fInputDesc=$fDescOut --tInputMask=$gmmInit --tOutputMask=$gmm $show

# Segmentation
iseg=./$datadir/$show.i.seg
pmsseg=./$datadir/$show.pms.seg
java -Xmx2048m -cp lium.jar \
fr.lium.spkDiarization.programs.MDecode \
--fInputDesc=$fDescOut --fInputMask=$base.mfcc --sInputMask=$show.out2.seg \
--sOutputMask=$show.result.seg --dPenality=1,1,1,1 --tInputMask=$gmm $show

最佳答案

将“:1”添加到 fDescIn 和 fDescOut 的末尾有效。这指定了标准化方法,即本例中的聚类方法。 “:0” 表示分段也有效并达到类似的结果。

LIUM官网的代码示例在这方面是错误的。

关于java - 使用 LIUM 进行语音 Activity 检测 (VAD/SAR),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34285324/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com