gpt4 book ai didi

google-speech-api - OGG_OPUS 使用 Google Speech API 失败,但在同一样本上使用 LINEAR16 似乎没问题?

转载 作者:行者123 更新时间:2023-12-04 17:21:42 46 4
gpt4 key购买 nike

将 OGG_OPUS 提交到谷歌语音 API 似乎存在问题,它不返回任何结果并退出,但是转换为 LINEAR16 时相同的样本工作正常。

使用标准 python 库同步提交两个样本,每种格式具有以下参数:

sample = speech_client.sample(
content,
source_uri=None,
encoding='LINEAR16',
sample_rate_hertz=16000)

sample = speech_client.sample(
content,
source_uri=None,
encoding='OGG_OPUS',
sample_rate_hertz=16000)

样本通过以下方式转换为 LINEAR16:
./ffmpeg-git-20170621-64bit-static/ffmpeg -i ./audio.opus -acodec libopus -b:a 16000 -f s16le -acodec pcm_s16le output.raw

原始音频是通过 chrome 58 的 js 中的 MediaRecorder 录制的:
https://developer.mozilla.org/en-US/docs/Web/API/MediaRecorder
就 Opus 音频使用以下构造函数参数而言,这似乎完全没问题:
audioBitsPerSecond=16000
mimeType="audio/webm"

OGG_OPUS 返回的错误是:
ValueError: No results returned from the Speech API.

最初我有点困惑,因为 OPUS 通常将 ffprobe 注册为 48000 比特率,但这似乎是由于编解码器默认以 48000 解码而不管采样率如何。

最佳答案

您设置的配置可能不受支持或可能是错误的配置,请您尝试使用波形文件和以下配置:

config = types.RecognitionConfig( encoding=enums.RecognitionConfig.AudioEncoding.LINEAR16, sample_rate_hertz=44100, language_code='en-US')



您可以通过上传音频文件从以下链接检查您的配置
https://www.get-metadata.com/

关于google-speech-api - OGG_OPUS 使用 Google Speech API 失败,但在同一样本上使用 LINEAR16 似乎没问题?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44750744/

46 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com