gpt4 book ai didi

python - python中谷歌语音识别的“音频数据必须是音频数据”错误

转载 作者:行者123 更新时间:2023-12-03 11:07:37 26 4
gpt4 key购买 nike

我正在尝试在 python 中加载音频文件并使用谷歌语音识别处理它

问题在于,与 C++ 不同,python 不显示数据类型、类,也不让您访问内存以通过创建新对象和重新打包数据在一种数据类型和另一种数据类型之间进行转换

我不明白如何在 python 中从一种数据类型转换为另一种数据类型

有问题的代码如下,

import speech_recognition as spr 
import librosa

audio, sr = librosa.load('sample_data/metal.mp3')

# create a speech recognition object
r = spr.Recognizer()

r.recognize_google(audio)

错误是:
audio_data must be audio data
如何转换要在谷歌语音识别中使用的音频对象

最佳答案

Librosa 返回 numpy 数组,您需要将其转换回 wav。像这样的东西:

 raw_audio = np.int16(audio/np.max(np.abs(audio)) * 32767).tobytes()

您可能最好使用 ffmpeg 包装器加载 mp3 而没有 librosa 的东西,librosa 对音频做了奇怪的事情(标准化等)。最好使用原始数据。

关于python - python中谷歌语音识别的“音频数据必须是音频数据”错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60879469/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com