gpt4 book ai didi

audio - 如何解码语音输入

转载 作者:行者123 更新时间:2023-11-30 08:28:40 24 4
gpt4 key购买 nike

我想要做的是创建一个 API,将人类语音转换为 IPA(国际音标)格式。我的问题是,关于如何在原始音频波形级别解码语音的资源在哪里。我寻找了一个 API,但我发现的大部分内容都直接翻译成罗马字母。我希望创造一种能够更准确地区分语音的东西。

最佳答案

首先我想说的是,这个项目比你想象的要困难和复杂得多。语音到文本处理是一个非常庞大且复杂的领域,已经进行了大量的研究。大多数解析器将内容直接发送给罗马字符的原因是因为它们的大部分处理都是模糊声音与其他模糊声音的上下文的概率匹配,以猜测哪些单词在一起有意义。您更有可能找到能为您提供 Soundex 而不是 IPA 的东西。也就是说,这个问题已经在多个方面得到解决。您最好的选择可能是 CMU 的 Sphinx 项目。

http://cmusphinx.sourceforge.net/wiki/start

这会给你一个良好的开端,但你假设语音到文本的处理比实际情况要先进得多,并且没有简单的方法可以通过波形将语音以任何精度转换为 IPA 。 Sphinx 是非常模块化且完全开源的,因此它将为您提供触手可及的强大功能,此时您是否能够弄清楚如何完成这项工作取决于您,但同样。这无论如何都不是一个已解决的问题。

关于audio - 如何解码语音输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11566536/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com