gpt4 book ai didi

rest - 是否无法使用 curl、使用 Google Cloud Speech API 来识别 10 到 15 分钟内的文件?

转载 作者:行者123 更新时间:2023-12-04 17:32:17 25 4
gpt4 key购买 nike

我正在使用带有 cURL 的 REST API,因为我需要做一些快速而简单的事情,而且我在一个无法开始倾倒垃圾的盒子上;即一些厚的开发人员 SDK。

我开始了 base64编码 flac文件和启动 speech.syncrecognize .

最终失败了:

{
"error": {
"code": 400,
"message": "Request payload size exceeds the limit: 10485760.",
"status": "INVALID_ARGUMENT"
}
}

所以好吧,你不能在请求中发送 31,284,578 个字节;必须使用云存储。因此,我上传了 flac 音频文件,然后在 Cloud Storage 中再次尝试使用该文件。那失败了:
{
"error": {
"code": 400,
"message": "For audio inputs longer than 1 min, use the 'AsyncRecognize' method.",
"status": "INVALID_ARGUMENT"
}
}

太好了, speech.syncrecognize不喜欢内容大小;再试一次 speech.asyncrecognize .那失败了:
{
"error": {
"code": 400,
"message": "For audio inputs longer than 1 min, please use LINEAR16 encoding.",
"status": "INVALID_ARGUMENT"
}
}

好的,所以 speech.asyncrecognize只能做LPCM;在 pcm_s16le 上传文件格式化并重试。所以最后,我得到了一个操作句柄:
{
"name": "9174269756763138681"
}

继续检查它,最终它是完整的:
{
"name": "9174269756763138681",
"done": true,
"response": {
"@type": "type.googleapis.com/google.cloud.speech.v1beta1.AsyncRecognizeResponse"
}
}

所以等等,毕竟,结果现在坐在队列中,没有 REST请求结果的方法?有人请告诉我,我忽略了正对着我的明显明显的凝视,而且 Google 并没有创建完全没有意义、不完整的 REST API。

最佳答案

所以问题的答案是,不,可以使用 curl,使用 Google Cloud Speech API,在 10 到 15 分钟内识别文件……假设您导航并遵守一组相当严格的约束……至少在 beta1 中。

文档中不明显的是结果应该由 operations.get 返回。方法......如果我的任何尝试实际上返回了空结果以外的东西,这将是显而易见的。

我的文件中的源速率是 44,100 或 48,000 Hz,我正在设置 sample_rate到源本地速率。但是,与说明的文档相反:

Sample rate in Hertz of the audio data sent in all RecognitionAudio messages. Valid values are: 8000-48000. 16000 is optimal. For best results, set the sampling rate of the audio source to 16000 Hz. If that's not possible, use the native sample rate of the audio source (instead of re-sampling).



重新采样到 16,000 Hz 后,我开始得到结果 operations.get .

我认为值得注意的是,相关性并不意味着因果关系。重新采样到 16,000 Hz 后,文件变得明显更小。因此,我无法证明这是一个采样率问题,而不仅仅是服务因超过一定大小的文件而窒息。

还值得注意的是,文档不一致地引用了采样率。似乎 gRPC API 可能期待 sample_rate和 REST API 可能期待 sampleRate ,根据它们各自的详细定义,在这种情况下,快速入门可能会为 REST API 提供不正确的示例。

关于rest - 是否无法使用 curl、使用 Google Cloud Speech API 来识别 10 到 15 分钟内的文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38678207/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com