gpt4 book ai didi

machine-learning - 使用哪些数据结构对经过训练的语音模型进行编码?

转载 作者:行者123 更新时间:2023-11-30 08:52:20 25 4
gpt4 key购买 nike

经过训练的语音模型是什么样的?即:

  • 对某人语音的有用指纹进行编码的典型数据结构是什么?

  • 如何将语音样本与评估模型进行比较以确定是否匹配?

我知道实现可能存在一些差异,因此学术文献中的任何流行示例或成功的实现都很棒。

最佳答案

创建人物模型:

通常,在语音生物识别中,您对某人的声音有很长的记录。

然后,您将记录分成几毫秒的小部分,并提取这些部分的特征。最扩展的功能是梅尔频率倒谱系数 (MFCC):

https://en.wikipedia.org/wiki/Mel-frequency_cepstrum

一旦您拥有数据集(语音的许多小部分的 MFCC),您就可以使用高斯混合模型 (GMM) 等算法对语音进行建模,获得 MFCC 的概率密度分布:

https://en.wikipedia.org/wiki/Mixture_model#Gaussian_mixture_model

预测

想象一下,您现在有多个针对多个人的语音模型。

当您有新的语音记录时,您需要再次拆分新的语音记录并提取 MFCC。

然后您可以获得新样本属于您的每个模型的概率。

如果概率高于阈值,则表示匹配。

关于machine-learning - 使用哪些数据结构对经过训练的语音模型进行编码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41465663/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com