gpt4 book ai didi

mp3 - Google Cloud Speech-to-Text(MP3 到文本)

转载 作者:行者123 更新时间:2023-12-04 16:06:39 26 4
gpt4 key购买 nike

我正在使用 Google Cloud Platform Speech-to-Text API 试用帐户服务。我无法从音频文件中获取文本。我不知道我应该对比特率为 128kbps 的 MP3 文件使用什么确切的编码和采样率赫兹。我尝试了各种选择,但我没有得到转录。

const speech = require('@google-cloud/speech');

const config = {
encoding: 'LINEAR16', //AMR, AMR_WB, LINEAR16(for wav)
sampleRateHertz: 16000, //16000 giving blank result.
languageCode: 'en-US'
};

最佳答案

测试版现在支持 MP3:

MP3 Only available as beta. See RecognitionConfig reference for details.


  • https://cloud.google.com/speech-to-text/docs/encoding

  • MP3 MP3 audio. Support all standard MP3 bitrates (which range from 32-320 kbps). When using this encoding, sampleRateHertz can be optionally unset if not known.


  • https://cloud.google.com/speech-to-text/docs/reference/rest/v1p1beta1/RecognitionConfig#AudioEncoding

  • 您可以使用各种工具(例如 iTunes)找出采样率。 CD 品质的音频使用 44100 赫兹的采样率。在此处阅读更多信息:
  • https://en.wikipedia.org/wiki/44,100_Hz

  • 要在 Google SDK 中使用它,您可能需要使用定义它的 Beta SDK 之一。这是 Go Beta SDK 中的常量:
    RecognitionConfig_MP3 RecognitionConfig_AudioEncoding = 8
  • https://godoc.org/google.golang.org/genproto/googleapis/cloud/speech/v1p1beta1
  • 关于mp3 - Google Cloud Speech-to-Text(MP3 到文本),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47826977/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com