gpt4 book ai didi

linux - 互联网语音触发识别

转载 作者:太空狗 更新时间:2023-10-29 11:22:41 27 4
gpt4 key购买 nike

手持设备上的语音识别通常由按下按钮触发。如果没有它,我该如何触发语音识别?我的基于 Raspberry PI 的设备有意没有任何用户可以手动交互的东西——只有一个麦克风卡在墙上。

我正在尝试实现一种方法,让它理解一个简单的触发命令,该命令将启动一系列操作。简而言之,我想在“听到”音频触发器时运行单个 .sh 脚本。我不希望它只理解一个触发器——它必须从触发器本身解码是没有意义的——比如脚本的名称或参数。一个非常简单的函数——“听到触发器 -> 执行 .sh 脚本”

我探索了不同的选择:

  1. 让音频流持续发送到谷歌语音识别服务 - 不是一个好主意 - 浪费太多流量和资源

  2. 让无互联网的语音识别应用程序持续收听音频流并“挑选出”触发词 - 这会好一些,但会浪费很多资源,而且必须教授这些系统音频样本 - 这几乎无法为设备快速设置自定义名称

  3. 使用某种音调处理让它对一系列响亮的声音使用react - 拍手两次或类似的声音 - 还不错,但我想在正确测试后我的手会掉下来或我会被我的家人杀死,因为我通常会在晚上躺在床上试验我的玩具。

  4. 口哨识别 - 与之前的选项没有太大区别,但您的手掌不会酸痛,如果我学会安静地吹口哨,我就有可能在测试中幸存下来。我能够找到 IBM 的一篇关于通过哨子命令命令计算机的文章——该方法与本地语音识别应用程序几乎相同,但你教它理解不同的哨子序列。然而,从那以后我不明白我怎么能教它听懂任何口哨而不管它的音调如何。

我有点喜欢口哨的想法 - 它似乎应该是其他选项中资源消耗最少的 - 我该怎么做?

鉴于我受到 Raspberry PI 硬件的限制,是否还有其他可以轻松实现的声音触发器?

最佳答案

查看处理来自麦克风的音频流事件的 nodejs 进程,然后使用 pocketsphinx 离线语音识别和有限的自定义词典来识别简单的语音命令:

https://github.com/ybutb/yee-voice

关于linux - 互联网语音触发识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14762100/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com