gpt4 book ai didi

javascript - 音频/语音比较和getUserMedia

转载 作者:行者123 更新时间:2023-12-02 23:47:07 33 4
gpt4 key购买 nike

我正在构建一个需要语音激活命令的Web应用程序。我正在使用getUserMedia作为音频输入。

对于语音激活命令,该过程是用户将需要通过记录其语音来“校准”命令。例如,对于“停止”命令,用户将说出“停止”一词,然后应用将保存音频片段。然后,对于用户发出“停止”命令,他/她将说出“停止”一词。

现在的问题是,有什么方法可以比较/识别用户从他/她“校准” /录制的较早录制的音频命令中发出的命令(音频输入)吗?换句话说,比较来自另一个音频(文件)的音频流。希望任何人都可以为我指明正确的方向,因为我已经为此进行了很长时间的研究。

提前致谢。

注意:我没有像SoundHound那样比较/识别音乐。另外,我认为我不需要语音识别,这对于我需要的机制来说太复杂且不必要。显然,如果没有语音识别,这很难甚至不可能做到。谁能推荐我可以尝试的语音识别库/ API(希望是javascript)?

最佳答案

没有语音识别就无法做到这一点,因为人类产生两个相同音频文件的机会远小于0.000000000000000000000000021%。

您也许能够识别音高并将其与校准音频相当准确地进行比较,但是可以基于不是来自机器的简单音频比较来捕获语音单词-从不,绝对不是

您可以根据音调,音节,共振峰之间的停顿长度等的变化对某些单词/命令进行分类,但是这些仍然是语音识别的第一步。

关于javascript - 音频/语音比较和getUserMedia,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30394111/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com