gpt4 book ai didi

machine-learning - 口音检测API?

转载 作者:行者123 更新时间:2023-11-30 08:38:44 27 4
gpt4 key购买 nike

我一直在研究构建移动/网络应用程序的可行性,该应用程序允许用户说出短语并检测用户的口音(波士顿、纽约、加拿大等)。用户可以说出大约 5 到 10 个预定义短语。我熟悉一些可用的语音转文本 API(Nuance、Bing、Google 等),但似乎没有一个提供此附加功能。我发现的最接近的例子是 Google Now 或 Microsoft 的说话人识别 API:

http://www.androidauthority.com/google-now-accents-515684/

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

因为会有 5-10 个预定义短语,所以我正在考虑使用 Tensorflow 或 Wekinator 等机器学习软件。我会在每个口音中创建初始音频以用作初始数据。在深入研究这条道路之前,我只是想获得有关此方法的一些反馈,或者是否有更好的方法。如果我需要澄清任何事情,请告诉我。

最佳答案

没有公共(public) API 可以完成如此​​罕见的任务。

作为语言检测的重音检测通常使用 i 向量来实现。教程是here 。实现是 available in Kaldi .

即使您的句子是固定的,您也需要大量数据来训练系统。收集带口音的语音可能会更容易,而不必关注您所拥有的特定句子。

端到端 tensorflow 实现也是可能的,但可能需要太多数据,因为您需要将说话者固有的事物与口音固有的事物分开(基本上像 i-vector 那样执行分解)。您可以找到类似作品的描述,如thisthis one .

关于machine-learning - 口音检测API?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40822181/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com