gpt4 book ai didi

java - CMU Sphinx 转录准确性

转载 作者:行者123 更新时间:2023-11-30 02:50:47 26 4
gpt4 key购买 nike

我正在开发网络语音识别应用程序。我正在使用 recorderJS 捕获声音并将其发送到后端,并在后端使用 CMU Sphinx 对其进行处理。

我在发现最新版本 5prealpha 的库时遇到了准确性问题,使用默认的声学模型、语言模型和字典,后来通过使用 JSGF 语法减少了识别的单词数量,所以我用的是1.0 beta6版本。

1.0 beta6版本的麦克风识别相当准确。然而,当我转录声音时,它总是很差。如何提高准确率?我尝试使用最新版本的 StreamSpeechRecognizer,但结果也很差。

最佳答案

我设法获得了很好的准确性。我检查了edu.cmu.sphinx.frontend.util.Microphone类的实现,发现采样率为16000,比特率为16, channel 数等于1。

我进一步查看了 recorderJS,发现 Google Chrome 中的采样率为 44,100 Hz,因此我寻找了该库的可配置版本,并找到了 Matt Diamond 的 RecorderJS 的 Chris Rudmin 分支。

我没有使用最新版本,因为声音是在 Ogg 中导出的格式,我需要它是 WAV ,所以我查看了以前的版本;我使用了 0.3 版本,其中比特率是可配置的,并且运行良好。

我后来修改了它附带的示例,以下参数给出了很好的准确性:

监听增益:0

位深度:16

channel 数:1

recordOpus:未选中

采样率:16000

比特率:32000

这是CMU Sphinx中流数据源的配置的 XML 配置文件。

<component name="streamDataSource"

type="edu.cmu.sphinx.frontend.util.StreamDataSource">

<property name="sampleRate" value="16000" />

<property name="bitsPerSample" value="16" />

<property name="bigEndianData" value="false" />

<property name="signedData" value="true" />

</component>

关于java - CMU Sphinx 转录准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38716569/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com