gpt4 book ai didi

语音处理中的矢量量化解说

转载 作者:行者123 更新时间:2023-12-03 17:21:09 24 4
gpt4 key购买 nike

我无法从 this research paper 确定确切地说,我如何根据训练数据集重现标准矢量量化算法来确定未识别语音输入的语言。以下是一些基本信息:
摘要信息
使用声学特征的语言识别(如日语、英语、德语等)是当前语音的一个重要而困难的问题
技术。 ... 本文使用的语音数据库包含 20 种语言:16
4 名男性和 4 名女性说了两次的句子。每个持续时间
句子约8秒。第一种算法基于标准
矢量量化 (VQ) 技术。每种语言都有特点
通过自己的 VQ 码本,alt text .
识别算法
第一种算法基于标准矢量量化 (VQ) 技术。每种语言,k ,特点是自带VQ码本,alt text .在识别阶段输入语音由alt text量化并且计算累积量化失真d_k。被识别为最小失真的语言。计算 VQ 失真,应用了几种 LPC 频谱失真测量...在这种情况下,WLR -- 加权最小比 -- 距离:
.
标准 VQ 算法:
密码本,alt text
, 对于每种语言都是使用训练句子生成的。句子中输入向量的累积距离,![alt text][4],定义为:[![alt text][5]][5]

距离d可以是对应于声学特征的任何距离,并且必须与用于生成码本的距离相同。每种语言都有其 VQ 码本的特点,alt text .
我的问题是,我究竟该怎么做?我有一套 50 句英语句子。在 MATLAB 中,我可以轻松计算任何给定信号的 WLR。但是,我如何制定码本,因为我必须使用 WLR 进行英语的“码本生成”。我也很好奇如何将大小为 16(被发现是最佳大小)的 VQ 码本与给定的输入信号进行比较。如果有人能帮我提炼这篇论文,我将不胜感激。
谢谢!

最佳答案

第二个问题(将码本与给定信号进行比较)更简单:对于每个码本条目 V_k_j,您必须使用输入信号计算距离 d。具有最小距离“d”的“j”将对应于最佳拟合码本条目。作为距离函数,您可以使用 WLR

构建码本(trainig)有点复杂。您必须将句子划分为长度为 N (16) 的向量,然后使用一些聚类算法(如 k-means)来聚类这些向量。然后在每个集群中找到均值。这意味着并且将是密码本条目。这是想到的第一件事。

另一种算法(我相信,会更好)可以找到here .
此外,在 Wikipedia 中描述了两种简单的训练算法。

关于语音处理中的矢量量化解说,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2271264/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com