gpt4 book ai didi

audio - Sphinx 的理想音频电平是多少?

转载 作者:行者123 更新时间:2023-12-03 01:58:35 26 4
gpt4 key购买 nike

在我的系统上,使用我的 USB 麦克风,我发现最适合 CMU Sphinx 的音频电平约为最大值的 20%。这给了我 75% 的语音识别准确率。如果我以数字方式放大它,我会得到更差的识别准确度(25%)。为什么是这样? Sphinx 的推荐音频级别是多少? [我也使用 16,000 个样本/秒,16 位。]

最佳答案

pocketsphinx 解码器使用 channel 幅度归一化。初始归一化值实际上在模型内部配置为 20% 的音频电平(feat.params 中的 -cmninit 参数)。但是,级别会在您解码时更新,因此它仅对第一个话语有影响。如果您在连续模式下正确解码,则级别应该无关紧要。不要为每个话语重新启动识别器,让它适应噪音和音频级别。

关于audio - Sphinx 的理想音频电平是多少?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33598660/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com