gpt4 book ai didi

python - 等长样本的音频分类/'vocoder' thingy

转载 作者:行者123 更新时间:2023-11-30 23:47:31 24 4
gpt4 key购买 nike

有人能够为以下内容提供链接、建议或其他形式的帮助吗?

目标 - 使用 python 对 10 秒音频样本进行分类,以便之后我可以对着麦克风说话,并让 python 从数据库中挑选并播放最接近匹配的片段(一起淡化)。

我的目标不是获得最接近的匹配,我不在乎音频样本的来源是什么。所以结果可能除了大声说话(有趣)之外没有任何用处。

我希望 python 应用程序能够找到 FFT 的特定匹配,例如在数据库中的 10 秒样本内。我猜麦克风的实时采样会有100毫秒的buffersample。

有什么想法吗?快速傅里叶变换?什么数据库?其他?

最佳答案

为了做到这一点,您需要三件事:

  1. 分段(决定如何制作音频样本)
  2. 特征提取(确定您关心的音频特征(例如 FFT))
  3. 距离指标(确定“最接近”的样本是什么)

分段:您目前使用 10 秒的示例进行描述。我认为您可能会使用较短的片段(接近 100-1000 毫秒)获得更好的结果,以便获得更适合声音变化的内容。

特征提取:您提到使用 FFT。 zero crossing rate考虑到它是多么简单,这是令人惊讶的好。如果您想变得更奇特,请使用 MFCCs或光谱质心可能是要走的路。

距离指标:大多数人使用 euclidean distance ,但也有一些更奇特的,例如 manhattan distance , cosine distance ,和earth-movers distance .

对于数据库,如果您有足够小的样本集,您可以尝试将所有内容加载到 kdtree 中。这样您就可以进行快速距离计算,并将其保存在内存中。

祝你好运!这听起来是一个有趣的项目。

关于python - 等长样本的音频分类/'vocoder' thingy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8312672/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com