gpt4 book ai didi

ios - 使用张开的耳朵进行语音识别时准确度非常低

转载 作者:技术小花猫 更新时间:2023-10-29 11:00:55 26 4
gpt4 key购买 nike

我在我的应用程序中使用张开的耳朵进行语音识别。主要关注的是准确性。在安静的环境中,准确率约为 50%,但在嘈杂的环境中,情况会变得更糟。几乎没有任何东西被正确识别。我目前正在使用大约300个单词的字典文件。我应该寻找哪些方面来提高准确性?到目前为止,我还没有对此进行任何调整。

最佳答案

语音识别应用程序的设计要求您了解语音识别背后的一些基本概念,例如声学模型、语法和语音词典。您可以从 CMUSphinx 教程中了解更多信息 http://cmusphinx.sourceforge.net/wiki/tutorial

准确性差是语音应用程序开发的正常状态,您可以使用一个过程来改进它并使应用程序有用。流程如下:

  1. 收集您尝试识别的语音样本并创建语音数据库以衡量当前的准确性并了解其背后的问题

  2. 尝试调整词汇量大小以改善不同词汇之间的分离语音提示。例如,10 个命令的词汇比 300 个命令的词汇更容易识别。

  3. 设计您的应用程序时,要识别的变体数量较少,并且人们的回答是直截了当的。这项事件称为 VUI(语音用户界面设计),这是一个相当大的领域,有许多精彩的书籍和博客文章。您可以在此处找到一些详细信息:http://www.amazon.com/Voice-Interface-Design-Michael-Cohen/dp/0321185765

  4. 尝试改进应用程序的声学部分。修改词典以匹配您的演讲。调整声学模型以匹配声学特性。参见 http://cmusphinx.sourceforge.net/wiki/tutorialadapt对于声学模型适配过程的描述。

关于ios - 使用张开的耳朵进行语音识别时准确度非常低,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7430337/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com