gpt4 book ai didi

speech-recognition - 如何准备语音识别数据集

转载 作者:行者123 更新时间:2023-12-04 19:50:53 25 4
gpt4 key购买 nike

我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经记录了 100 个说话者的语音。我接下来该怎么做? (假设我将它们拆分为单个 .wav 文件,每个文件包含一个数字)我将使用 mfcc 作为网络功能。

此外,如果我要使用支持 CTC(连接主义时间分类)的库,我想知道数据集的差异

最佳答案

您可以使用提供的答案/指导 here

根据您用于创建 LSTM(pybrain、theano、keras)的库,您可以查看他们的文档。

我建议使用 Theano(Binary LSTM link) 或 Keras(Tutorial),因为它们相当容易理解并且有据可查。

希望这可以帮助。

关于speech-recognition - 如何准备语音识别数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34473243/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com