gpt4 book ai didi

speech-recognition - pocketsphinx 之前的降噪降低了识别准确率

转载 作者:行者123 更新时间:2023-12-01 12:40:09 25 4
gpt4 key购买 nike

我正在尝试提高 pocketsphinx 在嘈杂环境中的识别准确率。但是,用户可能会在可变环境中使用该应用程序。因此,噪声训练不是我想做的事情。

我的问题是,在将语音信号输入 pocketsphinx 之前进行降噪是否一定会降低识别准确度?

如果是,降噪后需要保留语音的哪些特征?目前我观察到,如果我使用降噪,WER 从 ~40%(自由格式语言)上升到 ~60%。

补充一下,降噪后语音确实听起来更好。

Pocketsphinx argfile:

-lm lm_giga_64k_vp_3gram.DMP
-dict lm_giga_64k_vp.sphinx.dic
-hmm voxforge_en_sphinx.cd_cont_5000

这里的想法是展示启用降噪功能后语音识别准确度的提高,直观上这应该是理想情况下发生的,除非降噪算法完全弄乱了信号的频谱内容。

如有任何帮助,我们将不胜感激。

最佳答案

Currently I observe that the WER goes up from ~40%(free form language) to ~60% if I use noise reduction.

这些利率非常低,因为:

1)你使用的是过时的模型

2) 您正在使用没有降噪功能的过时的 pocketsphinx。

外部降噪通常会降低语音识别的准确性,幸运的是最新的 pocketsphinx 有自己的降噪模块,这使得它对噪音非常稳健。你只需要更新。要获得最佳结果,您需要:

1) 从 http://github.com/cmusphinx 下载并使用最新的 sphinxbase 和 pocketsphinx

2) 下载最新的声学和语言模型:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Acoustic%20Model/en-us.tar.gz/download

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20Generic%20Language%20Model/cmusphinx-5.0-en-us.lm.dmp/download

这样您就可以设置适当的基线。要试验打开和关闭降噪,您可以使用命令行配置选项:

-remove_noise yes/no

有关如何降低准确性(包括噪声鲁棒性)的进一步建议,您最好提供要识别的音频的测试样本。详情见:

http://cmusphinx.sourceforge.net/wiki/faq#qwhy_my_accuracy_is_poor

关于speech-recognition - pocketsphinx 之前的降噪降低了识别准确率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25641154/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com