gpt4 book ai didi

ios - iOS 上麦克风输入的语音事件检测

转载 作者:IT王子 更新时间:2023-10-29 05:53:15 26 4
gpt4 key购买 nike

我正在开发一个 iOS 应用,它可以进行基于语音的 AI;也就是说,它意味着从麦克风获取语音输入,将其转换为文本,将其发送给 AI 代理,然后通过扬声器输出返回的文本。尽管使用按钮开始和停止录制语音(用于语音识别的 SpeechKit,用于 AI 的 API.AI,用于输出的 Amazon Polly),但我已经一切正常。

我需要的部分是让麦克风始终打开,并在用户开始和结束谈话时自动开始和停止录制用户的声音。这个应用程序是为一个非正统的环境开发的,用户将无法访问屏幕(但他们将有一个高端的枪式麦克风来录制他们的文本)。

我的研究表明,这 block 拼图被称为“语音事件检测”,似乎是整个基于语音的人工智能系统中最难的步骤之一。

我希望有人可以提供一些简单的 (Swift) 代码来自己实现它,或者为我指明我可以在这个项目中实现的一些不错的库/SDK 的方向。

最佳答案

为了实现良好的 VAD 算法,您可以使用 py-webrtcvad .

它是 C 代码的 Python 接口(interface),您只需从项目中导入 C 文件并在 swift 中使用它们。

关于ios - iOS 上麦克风输入的语音事件检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45528922/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com