gpt4 book ai didi

speech-recognition - 谷歌云语音 : Distinguish Voices?

转载 作者:行者123 更新时间:2023-12-04 07:55:07 29 4
gpt4 key购买 nike

我有兴趣编写一个可以识别多个说话者的语音识别应用程序。例如,如果 Bill、Joe 和 Jane 正在说话,那么该应用程序不仅可以将声音识别为文本,还可以按说话者对结果进行分类(比如 0、1 和 2……因为显然/希望谷歌无法将声音链接到人们)。

我正在寻找可能做到这一点的语音识别 API,而 Google Cloud Speech 是排名最高的 API。我查看了 API 文档以查看此类功能是否可用,但没有找到。

我的问题是:这个功能是否存在?

注意:谷歌的支持页面说他们的工程师有时会在 SO 上回答这些问题,所以似乎有人可能对问题的“意愿”部分有答案。

最佳答案

IMB 的语音转文本服务就是这样做的。如果您使用他们的休息服务非常简单,只需添加您希望在 url 参数中识别不同的说话者。此处的文档 ( https://console.bluemix.net/docs/services/speech-to-text/output.html#speaker_labels )

它的工作原理是这样的:

 curl -X POST -u {username}:{password}
--header "Content-Type: audio/flac"
--data-binary @{path}audio-multi.flac
"https://stream.watsonplatform.net/speech-to-text/api/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"

然后它将返回一个带有结果和扬声器标签的 json,如下所示:
{
"results": [
{
"alternatives": [
{
"timestamps": [
[
"hello",
0.68,
1.19
],
[
"yeah",
1.47,
1.93
],
[
"yeah",
1.96,
2.12
],
[
"how's",
2.12,
2.59
],
[
"Billy",
2.59,
3.17
],
. . .
]
"confidence": 0.821,
"transcript": "hello yeah yeah how's Billy "
}
],
"final": true
}
],
"result_index": 0,
"speaker_labels": [
{
"from": 0.68,
"to": 1.19,
"speaker": 2,
"confidence": 0.418,
"final": false
},
{
"from": 1.47,
"to": 1.93,
"speaker": 1,
"confidence": 0.521,
"final": false
},
{
"from": 1.96,
"to": 2.12,
"speaker": 2,
"confidence": 0.407,
"final": false
},
{
"from": 2.12,
"to": 2.59,
"speaker": 2,
"confidence": 0.407,
"final": false
},
{
"from": 2.59,
"to": 3.17,
"speaker": 2,
"confidence": 0.407,
"final": false
},
. . .
]
}

他们还有用于不同平台的网络套接字选项和 SDK,可以访问它,而不仅仅是休息调用。

祝你好运

关于speech-recognition - 谷歌云语音 : Distinguish Voices?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41986944/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com