speech-recognition - 如何准备语音识别数据集-6ren

speech-recognition - 如何准备语音识别数据集

转载作者：行者123 更新时间：2023-12-04 19:50:53

25

4

我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经记录了 100 个说话者的语音。我接下来该怎么做？ (假设我将它们拆分为单个 .wav 文件，每个文件包含一个数字)我将使用 mfcc 作为网络功能。

此外，如果我要使用支持 CTC(连接主义时间分类)的库，我想知道数据集的差异

最佳答案

您可以使用提供的答案/指导 here

根据您用于创建 LSTM(pybrain、theano、keras)的库，您可以查看他们的文档。

我建议使用 Theano(Binary LSTM link) 或 Keras(Tutorial)，因为它们相当容易理解并且有据可查。

希望这可以帮助。

关于speech-recognition - 如何准备语音识别数据集，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34473243/

25

4

0

文章推荐： xslt - XSL-FO 边界重叠图形

文章推荐： pdf - 如何使用 TrimBox 数据裁剪 PDF

文章推荐： google-ads-api - google adwords api + 获取所有关键字

pattern-recognition - 如何: Pattern Recognition
我有兴趣了解有关模式识别的更多信息。我知道这是一个广泛的领域，所以我将列出一些我想学习处理的特定类型的问题: 在看似随机的字节集中查找模式。识别图像中的已知形状(例如圆形和正方形)。注意给定位置流
.net - System.Speech.Recognition 和 Microsoft.Speech.Recognition 之间有什么区别？
.NET 中有两个类似的用于语音识别的命名空间和程序集。我试图了解其中的差异以及何时适合使用其中之一。程序集 System.Speech(在 System.Speech.dll 中)有 System
speech-recognition - IBM Watson 支持 "Speaker diarization"/"Speaker Recognition"吗？
我正在玩 IBM Watson 的语音到文本演示:https://speech-to-text-demo.mybluemix.net/ 。我上传了一个有 2 个扬声器的音频文件。 Watson 返回的
speech-recognition - 检测语音转文本中的填充词
我使用 Google Speech API 进行语音到文本的转换。但是，它会过滤掉诸如“呃，嗯，啊”等填充词。我有什么办法可以获得包含填充词的文本？最佳答案使用像 Kaldi 这样更灵活的 api
speech-recognition - 如何从音频输入中识别多个说话者及其文本？
我正在使用 Microsoft 的认知服务。我有一个音频输入，需要识别多个发言者及其各自的文本。根据我的理解，Speaker Rekognition API 可以识别不同的个人，Bing Speec
speech-recognition - 如何准备语音识别数据集
我需要训练一个双向 LSTM 模型来识别离散语音(从 0 到 9 的单个数字)我已经记录了 100 个说话者的语音。我接下来该怎么做？ (假设我将它们拆分为单个 .wav 文件，每个文件包含一个数字)
face-recognition - 人脸识别
关闭。这个问题需要更多focused .它目前不接受答案。想改善这个问题吗？更新问题，使其仅关注一个问题 editing this post . 4年前关闭。 Improve this questi
face-recognition - 选择权重进行加权损失计算背后的逻辑？
为计算加权 sigmoid 交叉熵损失或数据集不平衡情况下的任何加权损失选择权重的一般逻辑是什么？问题域基于视觉/图像分类。最佳答案这篇 CVPR '19 论文是一个很好的引用: "Class-B
speech-recognition - 是否有在语音级别输出语音到文本的软件？
是否有任何软件能够获取音频文件并输出语音 (IPA) 文本？我了解那里的大部分软件都直接将其转化为一种语言，但是否有一种“可教”的？最佳答案 CMU Sphinx也许能够做你想做的。有几个不同的版
voice-recognition - ALIZE平台安装执行示例
我最近使用说话人识别库 - ALIZE 进行编程。但是我有一些关于如何安装和执行演示的问题。有人可以帮我看看我的安装和执行顺序有什么问题。我使用 Mac OS 系统: 1、下载lib ALIZE和L
gesture-recognition - 逐个符号手写识别有哪些算法？
我认为有一些算法可以评估绘制符号和预期符号之间的差异，或者类似的东西。任何帮助将不胜感激 :)) 最佳答案您可以实现一个简单的神经网络来识别手写数字。最简单的实现类型是通过反向传播训练的前馈网络(它
speech-recognition - 从视频和音频文件中提取语音的文本
执行此操作的最佳库是什么。并且是质量好足以依靠。不可能用说话者的声音训练系统或使用术语词典来改善结果。最佳答案在 Windows 上，您想使用 SAPI 接口(interface)(语音 API)
speech-recognition - 深度学习的音频功能
我找到了一些使用深度学习进行音频分类的论文和幻灯片。一些研究使用频谱图作为深度学习模型的输入。我想知道确切和实际的实现。我找到了 this slide . 第 67 页据我了解，第一层节点数为
speech-recognition - Google的语音识别API使用限制
我正在使用Google的语音识别API。我用Java创建了一个包装器(像这样:http://pastebin.com/zJEhnJ74)；一切正常，但有时我会收到http 403或http 500，所
speech-recognition - 如何结合语音识别和说话人二值化？
我正在尝试结合语音识别和说话人二值化技术来识别对话中有多少说话人以及哪个说话人说了什么。为此，我使用 CMU Sphinx和 LIUM Speaker Diarization . 我可以分别运行这两
speech-recognition - 编写语音识别引擎
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
speech-recognition - 嵌入式应用的语音识别引擎
我正在尝试研究可用的语音识别引擎和 SDK，以开发支持 Windows CE 语音的应用程序。我遇到过 Nuance，但没有看到其他任何东西。如果可能的话，我更喜欢 .Net SDK，但我想大多数会是
image-recognition - 开源对象识别算法
我一直在对用于我的对象识别程序的正确算法进行大量搜索。但我发现的一切都有一些重大缺陷。我的程序应该在遇到新对象时在线学习它们。当它遇到一个新对象时，在它上面有一个框并学习该对象(OpenTLD 完美
voice-recognition - 耳语时简单的语音识别
我正在尝试使用Pocketsphinx（。进行简单的语音到文本映射。语法非常简单，例如： public = (Matt, Anna, Tom, Christine)+ (One | Two | Th
speech-recognition - 为小型语音子集实现语音到文本转换的最快和最简单的方法
我想在我的 Mac OS x 上实现一个通过麦克风接收语音的系统。我知道如果不训练系统，任意语音识别几乎是不可能的，所以我愿意将其限制为 10 个简单的句子。它必须高度准确地识别这 10 个句子中的哪

首页

博学

6Ren·AI

商城

speech-recognition - 如何准备语音识别数据集