- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您好,我正在为 android 编写一个小应用程序,需要计算 mfcc vector 的库。有没有这样的库?希望它的输入采用字节数组,并作为返回接收已经标准的 13 个 vector 。只是我发现的所有图书馆都有一个奇怪的东西,对于我这个领域的新手来说,还不清楚。
请不要关闭问题,你有你的成就并愿意分享吗)
忘了说明一定要用Java写的。
最佳答案
checkout - Sphinx by CMU
它完全用 Java 编写。它还有一个适用于 android 的轻量级版本。我在我的一个项目中使用过它 - VoiceMapper
它只是将音频文件作为输入,并给出相应的 MFCC vector 作为输出。
要运行该程序,请在运行 Java 程序时提供音频文件列表作为命令行参数。
关于java - 用于计算 mfcc vector 的库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23278185/
我正在使用 Librosa 的函数 (librosa.feature.mfcc) 从音频文件中提取 MFCC,并且我正确地取回了一个具有我预期形状的 numpy 数组:13 个 MFCC 值对应音频文
我正在尝试让 tensorflow mfcc 给我与 python lybrosa mfcc 相同的结果我试图匹配 librosa 使用的所有默认参数在我的 tensorflow 代码中得到了不同的结
当我从音频中提取 MFCC 时,输出为 (13, 22)。数字代表什么?是时间范围吗?我使用 librosa。 使用的代码是: mfccs = librosa.feature.mfcc(y=X, sr
看了MFCC和Speech Recognition,有一点不明白。根据本页文档http://practicalcryptography.com/miscellaneous/machine-learni
我正在努力从一些音频文件中提取 MFCC 特征。我目前的程序为每个文件提取一系列MFCC,并且有一个缓冲区大小为1024的参数。我在一篇论文中看到以下内容: The feature vectors e
我的主要目标是将 mfcc 特征提供给 ANN。 但是我卡在了数据预处理步骤,我的问题分为两部分。 背景: 我有一个音频。我有一个 txt 文件,其中包含如下注释和时间戳: 0.0 2.5 Music
我了解创建自动语音识别引擎的基本步骤。但是,我需要更清楚地了解如何进行分割以及帧和样本是什么。我会写下我所知道的,并希望回答者在我错的地方纠正我并进一步指导我。 据我所知,语音识别的基本步骤是: (我
我正在使用 librosa 库将音乐片段转换为梅尔频谱图,以用作我的神经网络的输入,如文档 here 中所示。 . 这与 MFCCs 有什么不同,如果有的话?使用这两种方法有什么优点或缺点吗? 最佳答
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
能否从其 MFCC 系数中获取音频信号? MFCC 系数是否也有一个取值范围,如果有,它是什么?如果没有,您如何将它归一化在 0 到 1 之间。 我尝试使用以下 MATLAB 代码: http://l
这可能是一个非常愚蠢的问题,但我在任何地方都找不到详细信息。 所以我有一个 3 秒长的录音(wav 文件)。那是我的样本,它需要归类为 [class_A] 或 [class_B]。 通过遵循 MFCC
我有一个 MFCC 数据集,我知道它很好。我知道如何将行向量放入机器学习算法中。我的问题是如何使用 MFCC 来实现它,因为它是一个矩阵?例如,我如何将其放入机器学习算法中:? http://arch
我正在尝试构建用于生成 MFCC 的三角滤波器。我有基于 IPP 6 的现有代码,但随着 IPP 8 即将推出,我真的很想获得一个可以正常工作并且不依赖于现在不受支持的旧库的实现。 我已经生成了相关的
我使用 librosa 为我的音频文件创建了 mfcc,如下所示: import librosa y, sr = librosa.load('myfile.wav') print y print sr
我正在使用两个不同的库提取 MFCC 特征: python_speech_features 库 BOB 库 但是两者的输出是不同的,甚至形状也不一样。那是正常的吗?还是我缺少一个参数? 我的代码的相关
所以我知道什么是 MFCC(梅尔频率倒谱系数)。但我需要了解每个值是什么...它是某种声音频率值还是什么? 假设我们有这种矩阵。所以每一行代表一帧的系数,但这些数字是多少?它可能是最高频率还是什么?
简短:从 FFT 获取 MFCC 涉及哪些步骤。 详细: 我正在开发一个鼓应用程序来对声音进行分类。它是 iPhone 的一个匹配应用程序,具有用于声音处理的 openframeworks 库,其想法
我正在使用梅尔频率倒谱系数实现语音识别软件。特别是系统必须识别单个指定的单词。由于音频文件,我得到了一个具有 12 行(MFCC)和与语音帧数量一样多的列的矩阵中的 MFCC。我计算行的平均值,因此得
我正在研究说话人识别神经网络。 我正在做的是获取wav文件[Bing Bang Theory第一个espiode:-)],然后将其转换为MFCC coeffs,然后将其作为神经网络(MLPClassi
对于我最后一年的项目,我试图实时识别狗/吠声/鸟的声音(通过录制声音剪辑)。我使用 MFCC 作为音频功能。最初,我使用 jAudio 库从声音剪辑中总共提取了 12 个 MFCC 矢量。现在我正在尝
我是一名优秀的程序员,十分优秀!