gpt4 book ai didi

python - 使用 azure 语音转文本时保存麦克风音频输入

转载 作者:行者123 更新时间:2023-12-03 02:15:25 27 4
gpt4 key购买 nike

我目前正在我的项目中使用 Azure 语音转文本。它直接从麦克风识别语音输入(这就是我想要的)并保存文本输出,但我也有兴趣保存音频输入,以便我稍后可以收听。在迁移到 Azure 之前,我使用 python 语音识别库和 recognize_google,这允许我使用 get_wav_data() 将输入保存为 .wav 文件。我可以在 Azure 中使用类似的东西吗?我阅读了文档,但只能找到保存音频文件以进行文本转语音的方法。我的临时解决方案是先自己保存音频输入,然后在该音频文件上使用 azure stt,而不是直接使用麦克风进行输入,但我担心这会减慢该过程。有任何想法吗?预先感谢您!

最佳答案

我是 Microsoft 语音 SDK 团队的 Darren。不幸的是,目前没有内置支持同时从麦克风进行实时识别并将音频写入 WAV 文件。我们之前已经听到过这个客户的请求,我们会考虑在未来版本的语音 SDK 中添加此功能。

我认为您目前可以做的(这需要您进行一些编程),是将语音 SDK 与推送流一起使用。您可以编写代码从麦克风读取音频缓冲区并将其写入 WAV 文件。同时,您可以将相同的音频缓冲区推送到语音 SDK 中进行识别。我们有 Python 示例,展示如何将语音 SDK 与推送流结合使用。请参阅此文件中的函数“speech_recognition_with_push_stream”:https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/master/samples/python/console/speech_sample.py 。但是,我不熟悉用于从麦克风读取实时音频缓冲区以及写入 WAV 文件的 Python 选项。达伦

关于python - 使用 azure 语音转文本时保存麦克风音频输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/71491053/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com