gpt4 book ai didi

使用 Keras 进行音频分类 : presence of human voice

转载 作者:行者123 更新时间:2023-11-30 08:26:52 26 4
gpt4 key购买 nike

我想使用 Keras 创建一个音频分类系统,它可以简单地确定给定样本是否包含人声。没有其他的。这将是我的第一次机器学习尝试。

此音频预处理器存在。它声称没有完成,但它已经被 fork 了几次:

https://github.com/drscotthawley/audio-classifier-keras-cnn

我不明白这个是如何工作的,但我准备尝试一下:

https://github.com/keunwoochoi/kapre

但是假设我有其中一个可以工作,其余过程是否与图像分类类似?基本上,我从来没有完全理解什么时候使用Softmax,什么时候使用ReLu。一旦我将数据映射为张量,这对于声音和图像是否会类似?

最佳答案

声音可以被视为一维图像并可以通过一维卷积进行处理。通常,扩张卷积可能会起到很好的作用,请参阅 Wave Nets

声音也可以被视为序列并与 RNN 层一起使用(但也许它们的数据量太大了)

对于您的情况,您只需要一个输出,最后带有 'sigmoid' 激活和 'binary_crossentropy' 损失。

  • 结果 = 0 -> 没有声音
  • 结果 = 1 -> 有声音

何时使用“softmax”?

softmax 函数适用于多类问题(不是您的情况),您只需要一个类作为结果。 softmax 函数的所有结果总和将为 1。它的目的就像每个类别的概率。

它主要用在最后一层,因为你只能得到类作为最终结果。

这对于只有一个类是正确的的情况很有用。在这种情况下,它与分类交叉熵损失相得益彰。

模型中间的 Relu 和其他激活

这些不是很规则。有很多可能性。我经常在图像卷积模型中看到relu。

需要了解的重要事项是它们的“范围”。他们的输出有什么限制?

  • Sigmoid:从 0 到 1——在模型末尾,这将是存在/缺席分类的最佳选择。对于想要将许多可能的类放在一起的模型也很有用。
  • Tanh:从 -1 到 1
  • Relu:从 0 到无限(它只是削减负值)
  • Softmax:从 0 到 1,但确保所有值的总和为 1。适合在多个类中只需要 1 个类的模型的末尾。

关于使用 Keras 进行音频分类 : presence of human voice,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46354281/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com