gpt4 book ai didi

speech-recognition - 如何从音频输入中识别多个说话者及其文本?

转载 作者:行者123 更新时间:2023-12-05 00:16:22 26 4
gpt4 key购买 nike

我正在使用 Microsoft 的认知服务。我有一个音频输入,需要识别多个发言者及其各自的文本。

根据我的理解,Speaker Rekognition API 可以识别不同的个人,Bing Speech API 可以将语音转换为文本。但是,要同时执行这两项操作,我需要手动将音频文件拆分为多个部分(基于暂停/静音),然后将音频流发送到各个服务。有没有更好的方法来做到这一点?我应该切换到其他任何生态系统,例如 AWS Lex/Polly 或 Google 的产品吗?

最佳答案

您应该尝试 IBM Watson Speech to Text API。他们有一个名为 Speaker Diarization 的功能这对您的用例很有用。

更多细节在这里:
https://www.ibm.com/blogs/watson/2016/12/look-whos-talking-ibm-debuts-watson-speech-text-speaker-diarization-beta/

关于speech-recognition - 如何从音频输入中识别多个说话者及其文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41959043/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com