Python音频信号分类MFCC特征神经网络-6ren

Python音频信号分类MFCC特征神经网络

转载作者：行者123 更新时间：2023-11-28 16:30:37

我正在尝试将音频信号从语音分类为情绪。为此，我正在提取音频信号的 MFCC 特征并将它们馈送到一个简单的神经网络(使用 PyBrain 的 BackpropTrainer 训练的 FeedForwardNetwork)。不幸的是，结果非常糟糕。从 5 个类别中，网络似乎几乎总是得出相同的类别。

我有 5 个情绪类别和大约 7000 个带标签的音频文件，我将它们划分为每个类别的 80% 用于训练网络，20% 用于测试网络。

想法是使用小窗口并从中提取 MFCC 特征以生成大量训练示例。在评估中，对一个文件中的所有窗口进行评估，多数票决定预测标签。

Training examples per class: 
{0: 81310, 1: 60809, 2: 58262, 3: 105907, 4: 73182}

Example of scaled MFCC features:
[ -6.03465056e-01   8.28665733e-01  -7.25728303e-01   2.88611116e-05
1.18677218e-02  -1.65316583e-01   5.67322809e-01  -4.92335095e-01   
3.29816126e-01  -2.52946780e-01  -2.26147779e-01   5.27210979e-01   
-7.36851560e-01]

Layers________________________:  13 20 5 (also tried 13 50 5 and 13 100 5)
Learning Rate_________________:  0.01 (also tried 0.1 and 0.3)
Training epochs_______________:  10  (error rate does not improve at all during training)

Truth table on test set:
[[   0.    4.    0.  239.   99.]
 [   0.   41.    0.  157.   23.]
 [   0.   18.    0.  173.   18.]
 [   0.   12.    0.  299.   59.]
 [   0.    0.    0.   85.  132.]]

Success rate overall [%]:  34.7314201619
Success rate Class 0 [%]:  0.0
Success rate Class 1 [%]:  18.5520361991
Success rate Class 2 [%]:  0.0
Success rate Class 3 [%]:  80.8108108108
Success rate Class 4 [%]:  60.8294930876

好的，现在，正如您所看到的，结果在类中的分布非常糟糕。永远不会预测 0 级和 2 级。我认为，这暗示我的网络或更可能是我的数据存在问题。

我可以在这里发布很多代码，但我认为在下图中显示我为获得 MFCC 功能而采取的所有步骤更有意义。请注意，我使用没有开窗的整个信号只是为了说明。这看起来不错吗？ MFCC 值非常大，它们不应该小得多吗？ (在将它们送入网络之前，我将它们缩小，然后使用 minmaxscaler 对所有数据进行 [-2,2]，还尝试了 [0,1])

这是我用于 Melfilter 库的代码，我在离散余弦变换之前直接应用它来提取 MFCC 特征(我从这里得到它:stackoverflow):

def freqToMel(freq):
  '''
  Calculate the Mel frequency for a given frequency 
  '''
  return 1127.01048 * math.log(1 + freq / 700.0)

def melToFreq(mel):
  '''
  Calculate the frequency for a given Mel frequency 
  '''
  return 700 * (math.exp(freq / 1127.01048 - 1))

def melFilterBank(blockSize):
  numBands = int(mfccFeatures)
  maxMel = int(freqToMel(maxHz))
  minMel = int(freqToMel(minHz))

  # Create a matrix for triangular filters, one row per filter
  filterMatrix = numpy.zeros((numBands, blockSize))

  melRange = numpy.array(xrange(numBands + 2))

  melCenterFilters = melRange * (maxMel - minMel) / (numBands + 1) + minMel

  # each array index represent the center of each triangular filter
  aux = numpy.log(1 + 1000.0 / 700.0) / 1000.0
  aux = (numpy.exp(melCenterFilters * aux) - 1) / 22050
  aux = 0.5 + 700 * blockSize * aux
  aux = numpy.floor(aux)  # Arredonda pra baixo
  centerIndex = numpy.array(aux, int)  # Get int values

  for i in xrange(numBands):
    start, centre, end = centerIndex[i:i + 3]
    k1 = numpy.float32(centre - start)
    k2 = numpy.float32(end - centre)
    up = (numpy.array(xrange(start, centre)) - start) / k1
    down = (end - numpy.array(xrange(centre, end))) / k2

    filterMatrix[i][start:centre] = up
    filterMatrix[i][centre:end] = down

  return filterMatrix.transpose()

如何获得更好的预测结果？

最佳答案

这里我编了一个从语音识别性别的例子。我用了Hyke-dataset ¹ 对于这个例子。这只是一个快速制作的例子。如果有人想进行严肃的性别鉴定，可能会做得更好。但总的来说错误率会降低:

Build up data...
Train network...
Number of training patterns:  94956
Number of test patterns:      31651
Input and output dimensions:  13 2
Train network...
epoch:    0   train error: 62.24%   test error: 61.84%
epoch:    1   train error: 34.11%   test error: 34.25%
epoch:    2   train error: 31.11%   test error: 31.20%
epoch:    3   train error: 30.34%   test error: 30.22%
epoch:    4   train error: 30.76%   test error: 30.75%
epoch:    5   train error: 30.65%   test error: 30.72%
epoch:    6   train error: 30.81%   test error: 30.79%
epoch:    7   train error: 29.38%   test error: 29.45%
epoch:    8   train error: 31.92%   test error: 31.92%
epoch:    9   train error: 29.14%   test error: 29.23%

我使用了 scikits.talkbox 中的 MFCC 实现.也许下面的代码可以帮助你。 (性别识别肯定比情绪检测容易得多......也许你需要更多不同的特征。)

import glob

from scipy.io.wavfile import read as wavread
from scikits.talkbox.features import mfcc

from pybrain.datasets            import ClassificationDataSet
from pybrain.utilities           import percentError
from pybrain.tools.shortcuts     import buildNetwork
from pybrain.supervised.trainers import BackpropTrainer
from pybrain.structure.modules   import SoftmaxLayer

def report_error(trainer, trndata, tstdata):
    trnresult = percentError(trainer.testOnClassData(), trndata['class'])
    tstresult = percentError(trainer.testOnClassData(dataset=tstdata), tstdata['class'])
    print "epoch: %4d" % trainer.totalepochs, "  train error: %5.2f%%" % trnresult, "  test error: %5.2f%%" % tstresult  

def main(auido_path, coeffs=13):
    dataset = ClassificationDataSet(coeffs, 1, nb_classes=2, class_labels=['male', 'female'])
    male_files = glob.glob("%s/male_audio/*/*_1.wav" % auido_path)
    female_files = glob.glob("%s/female_audio/*/*_1.wav" % auido_path)

    print "Build up data..."
    for sex, files in enumerate([male_files, female_files]):
        for f in files:
            sr, signal = wavread(f)
            ceps, mspec, spec = mfcc(signal, nwin=2048, nfft=2048, fs=sr, nceps=coeffs)
            for i in range(ceps.shape[0]):
                dataset.appendLinked(ceps[i], [sex])

    tstdata, trndata = dataset.splitWithProportion(0.25)
    trndata._convertToOneOfMany()
    tstdata._convertToOneOfMany()

    print "Number of training patterns: ", len(trndata)
    print "Number of test patterns:     ", len(tstdata)
    print "Input and output dimensions: ", trndata.indim, trndata.outdim

    print "Train network..."
    fnn = buildNetwork(coeffs, int(coeffs*1.5), 2, outclass=SoftmaxLayer, fast=True)
    trainer = BackpropTrainer(fnn, dataset=trndata, learningrate=0.005)

    report_error(trainer, trndata, tstdata)
    for i in range(100):
        trainer.trainEpochs(1)
        report_error(trainer, trndata, tstdata)

if __name__ == '__main__':
    main("/path/to/hyke/audio_data")

¹ Azarias Reda、Saurabh Panjwani 和 Edward Cutrell: Hyke:适用于发展中地区的低成本远程考勤跟踪系统，第 5 届 ACM 发展中国家网络系统研讨会 (NSDR) ).

关于Python音频信号分类MFCC特征神经网络，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32304432/

文章推荐： php - 从 php echo 调用 javascript 图像不透明度函数

文章推荐： javascript - 获取悬停的背景图像

文章推荐： python - PyTables 中的这个错误是什么？

文章推荐： python - Robot Framework 是有状态的还是无状态的？

具有由实现定义的常量字段的 Rust 特征
设置我希望能够定义一个特征，使得任何实现该特征的结构不仅必须实现函数，而且还必须为某些常量指定值。所以也许是这样的: trait MyTrait { const MY_CONST: u8;
Scala 特征/蛋糕模式与案例类
在我的 Web 应用程序中，授权用户至少有 4 个“方面”:http session 相关数据、持久数据、facebook 数据、运行时业务数据。我决定使用案例类组合而不是特征至少有两个原因: 性状
D 特征 - 完整数据成员列表
我正在尝试使用以下代码从类中获取完整数据成员的列表: import std.stdio; import std.traits; class D { static string[] integr
rust - 无法将数组传递给具有任意长度切片的 From 特征
我正在尝试实现 From对于我的一种类型。它应该消耗任意长度的行(仅在运行时已知)并从行中获取数据。编译器提示 &[&str; 2]不是 &[&str] ，即它不能将固定大小的切片转换为任意长度的切片
r - 从决策树中提取使用过的列名/特征
有人可以请你这么好心，并指出一种提取拟合树中使用的列/特征的方法，使用如下代码: library(dplyr) library(caret) library(rpart) df % dplyr
新类型的 Rust 特征
假设我定义了一个 Group所有组操作的特征。是否可以创建一个包装器AGroup超过 Group无需手动派生所有操作？基本上，我想要这个: #[derive (Copy, Debug, Clone,
rdf - 用一次观察表示两个属性/特征
最近浏览了Markus Stocker的博客他很好地解释了如何在使用 observation 时表示传感器观察结果。 SSN 的模块本体论。我完全理解他的解释，但我发现有一件事多余地代表了一个的两个特
使用泛型和案例类方法的 Scala 特征
我有以下情况/代码； trait Model { def myField: String } case class MyModel(myField: String) extends Model
scala - 案例类继承另一个类/特征
我想让一个案例类扩展一个特征以下是我的要求: 我需要为 child 使用案例类。这是一个硬性要求，因为 scopt ( https://github.com/scopt/scopt ) parent
rdf - 用一次观察表示两个属性/特征
最近浏览了Markus Stocker的博客他很好地解释了如何在使用 observation 时表示传感器观察结果。 SSN 的模块本体论。我完全理解他的解释，但我发现有一件事多余地代表了一个的两个特
使用泛型和案例类方法的 Scala 特征
我有以下情况/代码； trait Model { def myField: String } case class MyModel(myField: String) extends Model
Python - 决策树和处理独特的标签/特征
不确定标题是否完全有意义，对此感到抱歉。我是机器学习新手，正在使用 Scikit 和决策树。这就是我想做的；我想获取所有输入并包含一个独特的功能，即客户端 ID。现在，客户端 ID 是唯一的，无法以
c++ - 特征:将数组映射到矩阵大小未知的矩阵
我想读取具有 Eigen 的 MNIST 数据集，每个文件都由一个矩阵表示。我希望在运行时确定矩阵大小，因为训练集和测试集的大小不同。 Map> MNIST_dataset((uchar*)*_dat
c++ - 特征:访问矩阵中的分散元素
在 MATLAB 中，我可以选择一个分散的子矩阵，例如: A = [1 ,2 ,3;4,5,6;7,8,9] A([1,3],[1,3]) = [1,3;7,9] 有没有用 Eigen 做到这一点的聪
generics - 无法为通用结构实现 Into 特征
我在执行 Into 时遇到问题Rust 中通用结构的特征。下面是我正在尝试做的简化版本: struct Wrapper { value: T } impl Into for Wrapper {
c++ - 特征:在复杂矩阵上选择函数
我有这段 matlab 代码，我想用 Eigen 编写: [V_K,D_K] = eig(K); d_k = diag(D_K); ind_k = find(d_k > 1e-8); d_k(ind_
c++ - 特征:通过引用访问矩阵的列
我正在使用 Eigen C++ 矩阵库，我想获取对矩阵列的引用。文档说要使用 matrix_object.col(index)，但这似乎返回了一个表示列的对象，而不是简单地引用原始矩阵对象中的列。我担
algorithm - 特征 - 旋转矩阵的重新正交化
在乘以很多旋转矩阵之后，由于舍入问题(去正交化)，最终结果可能不再是有效的旋转矩阵重新正交化的一种方法是遵循以下步骤: 将旋转矩阵转换为轴角表示法 ( link ) 将轴角转换回旋转矩阵 ( lin
PHP 特征 - 定义通用常量
定义可由命名空间中的多个类使用的常量的最佳方法是什么？我试图避免太多的继承，所以扩展基类不是一个理想的解决方案，我正在努力寻找一个使用特征的好的解决方案。这在 PHP 5.4 中是可行的还是应该采用不
PHP 特征 - 定义通用常量
定义可由命名空间中的多个类使用的常量的最佳方法是什么？我试图避免太多的继承，所以扩展基类不是一个理想的解决方案，我正在努力寻找一个使用特征的好的解决方案。这在 PHP 5.4 中是可行的还是应该采用不

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

Python音频信号分类MFCC特征神经网络