gpt4 book ai didi

python - 给定不同大小的音频文件进行音素识别?

转载 作者:行者123 更新时间:2023-11-30 09:24:57 26 4
gpt4 key购买 nike

我目前正在与 cnn 一起进行音素识别。

我的数据集已标记,但我有点不确定如何确保特征向量的长度也将根据音频文件的长度。

我对 CNN 的输入目前是梅尔对数滤波器能量的频谱图可视化,其中 y 轴是不同的频带,x 轴是包含帧。

enter image description here

对于上面给出的示例,句子是:

fmjc-b-an118 RUBOUT J L Y Z TWO

和音素:

RUBOUT: R AH B AW T

J: JH EY

L: EH L

Y: W AY

Z: Z IY

TWO: T UW

249帧中总共15个音素。近 17 帧。每个音素。

但是这里: enter image description here

是对它所说的文字/单词:

fbbh-b-an90 NO
NO: N OW

97 帧中总共 2 个音素 = 每个音素 49 帧。

那么我如何创建一个输入形状来捕获音频文件将具有的数字音素?

编辑:

我认为可以重新创建输入/输出关系的唯一方法是提供一个帧的输入形状,但是系统是否能够在这么短的时间内检测到不同类别的音素,如果没有可用的,仍然说“无”?

这需要输出形状包含每个帧的类,这需要我知道每个音素的持续时间,这应该可以通过 this 来实现。 。

但是是否有可能检测给定一帧的音素?

最佳答案

我有一个建议,我认为这不一定是个好建议,但我确实认为它会起作用。

如果您想要做的是训练,以便无论音素跨越多少帧,都可以被识别,您可以尝试 time-scaling你的训练特征由一些随机系数决定。这是在 OpenCV 中的一些特征提取器上完成的,以使图像特征具有尺度不变性。我认为如果你将它应用到音频上,它可能会使其速度不变。我意识到这可能会导致您的训练特征数量激增,因此另一种方法是缩放您试图识别的输入,而不是训练特征。您也许可以将所有训练特征缩放到相同的帧/特征速率,然后将所有输入缩放到相同的速率。可能这完全不可能,我不是机器学习专家。祝你好运

关于python - 给定不同大小的音频文件进行音素识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42891256/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com