gpt4 book ai didi

signal-processing - 检测歌曲中人声的开始位置?

转载 作者:行者123 更新时间:2023-12-03 22:36:52 25 4
gpt4 key购买 nike

检测歌曲中人声开始位置的最佳方法是什么?我只需要人声的开始时间。不需要极高的精度。速度更重要。

非常感谢有关论文或算法(如果存在)的任何线索..还寻找最适合此框架/语言的建议。

最佳答案

* 剧透:答案不在下面 *

因为我打算做类似的事情,所以我自己对这个主题做了一些研究,发现有一些精确的数字技术可能能够做到这一点。

我将列出引用文献,让您作为读者来决定这是否是正确的方法。这一切都与人声音频特征提取有关,并在音频数据中找到人声特征。

你可以从这里开始,但它真的不会导致任何地方,但可能有助于了解你的兴趣:)

http://en.wikipedia.org/wiki/Voice_activity_detection

然后,一些关于说话人识别的文章:

在这里,有一个你需要知道的入门mel frequency cepstral coefficients (MFCC) 特征提取。

http://www.speaker-recognition.org/navAlg.html

然后,例如,这个:

http://www.iccce.co.in/Papers/ICCCECE358.pdf

我知道它们都不能直接解决您的问题,但至少您将能够掌握要处理的怪物的大小。

编辑:框架

我使用 c# 来处理与此相关的事情,起初我使用了自己的 fft 算法,然后转移到使用英特尔数学库的 ILNumerics 库,后来用 fftw 替换了所有这些。

http://ilnumerics.net/ (嗯,曾经是免费的)

http://software.intel.com/en-us/articles/intel-mkl/英特尔数学内核

http://www.fftw.org/ (一个简单的网页,但性能很差)

编辑:新的fft引擎

由于我正在将我的一些代码移植到 android,我与一个做了一些被认为不可能的事情的人有很好的工作经验 - 比 FFTW 更快的 FFT 库:FFTS .我对他的魔法的理解是有限的,但他将 codelet 用于各种处理器架构,并且优于现有的每个库。

关于signal-processing - 检测歌曲中人声的开始位置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10826683/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com