gpt4 book ai didi

python - 具有精确时间戳的语音识别?

转载 作者:太空宇宙 更新时间:2023-11-03 20:18:55 54 4
gpt4 key购买 nike

大家好,

我使用过 Google 的 txt 到语音 API。

当我想对 wav 音频文件(从视频中提取)进行编码时,某些单词的时间戳不是很精确。 (根据谷歌的分辨率是 0,1 秒 - 但就我而言,有时它更弱/延迟)。

我想我可以通过降低音频文件的速度来尝试解决方法,但结果或多或少是相同的。

有人知道一些用于语音识别的精确 API,或者有一些更好地准备音频文件的提示吗?

我想逐一确定单词,包括它们的确切时间戳。

非常感谢!

最佳答案

现代语音识别算法会牺牲对齐精度来换取解码速度,因此 Google 的识别器可能不会分配非常准确的时间戳。

使用 Kaldi 等开源识别器可以实现更准确的对齐,请参阅 https://github.com/lowerquality/gentle或类似的东西。不过,您必须重新调整 Google 结果才能获得正确的时间戳。

关于python - 具有精确时间戳的语音识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58274152/

54 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com