gpt4 book ai didi

python - Python 3人工智能:离线STT和TTS

转载 作者:太空宇宙 更新时间:2023-11-04 08:04:08 28 4
gpt4 key购买 nike

所以我已经使用python编程了一段时间了。我用python创建了一些简单的AI聊天机器人,它们通过文本进行通信。我想将其提升到一个新的水平,类似于个人伴侣AI。我的目标是放在树莓派上(我有一个与pi兼容的便携式充电器,麦克风和扬声器),并使其成为离线的AI,可以与之交谈,做笔记,记住信息等。我想知道一种方法将离线STT和TTS引擎合并到我的python程序中。 (我发现的大多数STT和TTS引擎都是通过google,亚马逊等在线提供的。)预先感谢。

最佳答案

我已经检查了离线STT。我尝试在下面运行所有这些内容并查看我的评论。

您可以根据自己的目的查看它们。

线上


wit.ai https://wit.ai/
这可以用于商业产品。
为机器人,应用程序,服务和设备建立品牌独特的自然语言交互。 https://api.ai/
https://docs.api.ai/docs/languages


离线


CMUSphinx http://cmusphinx.sourceforge.net
CMU Sphinx语音识别引擎。
CMU Sphinx-语音识别工具包-由于资源需求低,可以在移动设备上使用脱机语音识别。
https://pypi.python.org/pypi/SpeechRecognition/
https://github.com/Uberi/speech_recognition
eSpeak NG是一款开源语音合成器,支持93种语言和口音。 (支持中文)
https://github.com/rhdunn/espeak
eSpeak是一种紧凑的,多语言的开源文本语音合成器。它仅读取文本文件和stdin(在控制台行中)。
Microsoft针对通用Windows平台的UWP语音识别
https://docs.microsoft.com/en-us/windows/uwp/input-and-devices/speech-recognition
在Windows Runtime应用程序中为命令和控制启用语音识别。
Kaldi是使用C ++编写的语音识别工具包,并根据Apache License v2.0获得许可。 Kaldi供语音识别研究人员使用。 (支持中文)
https://github.com/kaldi-asr/kaldi
http://kaldi-asr.org/doc/about.html
在Windows上安装期间,出现错误,无法继续。
此外,这是在网站上写的:“请注意,Windows安装程序已过时且未经定期测试,并且并非当前所有代码都可以在其上编译。”
Tensorflow语音识别https://github.com/pannous/tensorflow-speech-recognition
使用Google的Tensorflow深度学习框架,序列到序列神经网络进行语音识别。
它是面向研究的。该项目是从https://github.com/pannous/caffe-speech-recognition进行的
深度演讲https://github.com/mozilla/DeepSpeech
百度DeepSpeech架构的TensorFlow实现
它是面向研究的。

关于python - Python 3人工智能:离线STT和TTS,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34624277/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com