作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 Microsoft 的认知服务。我有一个音频输入,需要识别多个发言者及其各自的文本。
根据我的理解,Speaker Rekognition API 可以识别不同的个人,Bing Speech API 可以将语音转换为文本。但是,要同时执行这两项操作,我需要手动将音频文件拆分为多个部分(基于暂停/静音),然后将音频流发送到各个服务。有没有更好的方法来做到这一点?我应该切换到其他任何生态系统,例如 AWS Lex/Polly 或 Google 的产品吗?
最佳答案
您应该尝试 IBM Watson Speech to Text API。他们有一个名为 Speaker Diarization 的功能这对您的用例很有用。
更多细节在这里:
https://www.ibm.com/blogs/watson/2016/12/look-whos-talking-ibm-debuts-watson-speech-text-speaker-diarization-beta/
关于speech-recognition - 如何从音频输入中识别多个说话者及其文本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41959043/
我正在使用HTK工具包进行音乐检索 特别是,我想让歌手认可。 我认为我想做的是接近说话者识别。 因此,我研究了一些样本和红红的HTK书。 但是仍然找不到很好的引用 歌手识别或说话者识别有什么好的引用资
我是一名优秀的程序员,十分优秀!