gpt4 book ai didi

performance - 语音识别,例如 Siri

转载 作者:行者123 更新时间:2023-12-04 02:43:52 24 4
gpt4 key购买 nike

Siri 等软件接受语音命令并适本地回答这些问题 (98%)。我想知道当我们编写一个软件来获取输入的语音信号流并回答这些问题时,

我们是否需要将输入转换为人类可读的语言?比如英语?

在自然界中,我们有许多不同的语言,但当我们说话时,基本上会发出不同的声音。而已。但是,我们创建了所谓的字母表来表示这些噪声变化。

所以,我的问题又是,当我们编写语音识别算法时,我们是将这些噪声变化信号与我们的数据库进行匹配,还是首先将这些噪声变化转换成英语,然后从数据库中检查要回答的内容?

最佳答案

您所指的“噪声变化信号”称为 phonemes .语音识别系统如何将这些音素翻译成单词取决于系统的类型。 Siri 不是一个基于语法的系统,您可以根据一组规则告诉语音识别系统您期望的短语类型。由于 Siri 在开放语境中翻译语音,因此它可能使用了某种类型的统计模型。当今流行的语音识别统计模型是隐马尔可夫模型。虽然涉及到各种各样的数据库,但这并不是将音素组简单地搜索成单词。对过程和翻译问题有很好的高级描述 here .

关于performance - 语音识别,例如 Siri,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11505345/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com