gpt4 book ai didi

python - Python中的实时离线语音识别

转载 作者:太空狗 更新时间:2023-10-29 21:59:09 25 4
gpt4 key购买 nike

我已经使用 Python 语音识别工作了一个月的大部分时间,制作了一个类似 JARVIS 的助手。我已经将语音识别模块与 Google Speech API 和 Pocketsphinx 一起使用,并且我直接使用了 Pocketsphinx 而没有其他模块。虽然识别是准确的,但我很难处理这些包处理语音所花费的大量时间。它们的工作方式似乎是从一个静默点记录到另一个静默点,然后将录音传递给 STT 引擎。在处理录音时,无法录制其他声音以供识别,如果我尝试连续发出多个复杂命令,这可能会成为问题。

当查看 Google Assistant 语音识别、Alexa 的语音识别或 Mac OS High Sierra 的离线识别时,我看到在录音中没有任何停顿的情况下,我说出的单词被识别出来。我见过这个叫做实时识别,流式识别和逐字识别。有什么方法可以在 Python 中执行此操作,最好是离线而不使用客户端?

我尝试(未成功)通过更改 SpeechRecognition 识别器的暂停阈值、说话阈值和非说话阈值来实现此目的,但这只会导致音频奇怪地分段,并且在每次识别后仍然需要一秒钟才能记录再次。

最佳答案

Pocketsphinx 可以处理流,看这里

Python pocketsphinx recognition from the microphone

Kaldi也可以处理流(比pocketsphinx更准确)

https://github.com/alphacep/kaldi-websocket-python/blob/master/test_local.py

Google speech API 也可以处理流,看这里:

Google Streaming Speech Recognition on an Audio Stream Python

关于python - Python中的实时离线语音识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51525691/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com