gpt4 book ai didi

speech-to-text - 在 google-cloud-speech 中识别 .wav 音频文件的问题

转载 作者:行者123 更新时间:2023-12-03 23:15:30 28 4
gpt4 key购买 nike

我使用谷歌云语音到文本 API 将音频转换为文本。

对于 .raw文件它工作正常

但是对于 .wav文件它给了我类似的错误:

Google::Gax::RetryError Exception: GaxError Exception occurred in retry method that was not classified as transient, caused by 3:Must use single channel (mono) audio, but WAV header indicates 2 channels.



我正在使用 Speech-to-text API 的 ruby​​ 实现。

我已经保存在 Assets 中的 test.wav 文件。

我使用了 MULAW 作为编码并且省略了采样率。

有人可以帮我弄这个吗 ?

最佳答案

有一个 Beta 功能可用于指定用于转录多声道音频的音频声道数 [1]。

如果您正在执行 POST 请求,则可以指定:

'audioChannelCount':2,

'enableSeparateRecognitionPerChannel':真

当您在单独的 channel (例如电话)上录制不同的人时,第二个会特别有用。您可以在下面的文档中阅读有关此内容的更多信息,它还提供了在您使用 Java 或 Python 客户端库时将使用的代码。

如果您想使用一个 channel 或每个 channel 的音频,我建议检查 sox 工具 [2],它允许您以编程方式将 channel 合并为 1 或使用 remix 获取每个 channel 的音频。

[1] https://cloud.google.com/speech-to-text/docs/multi-channel

[2] http://sox.sourceforge.net/sox.html

关于speech-to-text - 在 google-cloud-speech 中识别 .wav 音频文件的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51774227/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com