- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
关闭。这个问题需要更多focused .它目前不接受答案。
想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .
2年前关闭。
Improve this question
我正在尝试使用 ANN 来检测音符的音高。该网络是一个简单的两层 MLP,其输入基本上是一个 DFT(平均和对数分布),12 个输出对应于特定 Octave 的 12 个音符。
该网络使用由某种乐器演奏的 12 个音符的几个样本(一次一个音符)和一些“静音”样本进行训练。
结果其实很好。网络能够准确地检测到不同乐器演奏的音符,对噪音的影响相对较小,甚至在播放歌曲时也不会完全失去理智。
然而,目标是能够检测和弦声音。这样当两个或多个音符一起演奏时,两个对应的神经元就会被激活。令人惊讶的是,网络实际上已经在某种程度上做到了这一点(仅在单音样本上进行训练),但不如单音音符那么一致和准确。我的问题是如何增强它识别复音的能力?
问题是我真的不明白为什么它实际上已经起作用了。不同的音符(或它们的 DFT)基本上是训练网络的空间中的不同点。所以我明白为什么它确实识别相似的声音(附近的点),但不知道它如何“总结”音符组合的输出(从每个训练示例形成一个远处的点)。与在 (0,0) (0,1) (1,0) = (0) 上训练的 AND 网络相同,预计不会“得出”(1,1) = (1) 的结论。
对此的蛮力方法是用尽可能多的复音样本训练网络。然而,由于网络似乎以某种方式模糊地从单声道样本中掌握了这个想法,这里可能有一些更基本的东西。
任何指针? (对不起,长度,顺便说一句:)。
最佳答案
它已经起作用的原因可能很简单,因为您没有训练它选择一个且只有一个输出(至少我认为您没有)。在输出只是输入和权重的点积的简单情况下,权重将成为相应音高的匹配过滤器。由于一切都是线性的,如果多个匹配的滤波器同时看到良好的匹配(如复音音符的情况),则多个输出将同时被激活。由于您的网络可能包含非线性,因此图片有点复杂,但想法可能相同。
关于改进它的方法,使用和弦样本进行训练当然是一种可能性。另一种可能性是切换到线性滤波器。和弦声音的 DFT 基本上是每个单独声音的 DFT 之和。您希望输入的线性组合成为输出的相应线性组合,因此线性滤波器是合适的。
顺便说一句,您为什么首先为此使用神经网络?似乎只看 DFT 并假设采用最大频率会更轻松地为您提供更好的结果。
关于machine-learning - 使用神经网络进行音高检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2163267/
我是一名优秀的程序员,十分优秀!