gpt4 book ai didi

python - 语音聚类的聚类算法

转载 作者:行者123 更新时间:2023-12-04 10:27:48 25 4
gpt4 key购买 nike

我们可以在语音域中使用的最佳聚类方法是什么?

例如,如果我们有来自多个说话者的语音,我们需要将它们聚类到特定的篮子中,其中每个篮子对应一个说话者。为此,我们可以使用的最佳聚类算法是什么?

最佳答案

我建议 RNN-LSTM .有一个很棒的教程解释了 音乐流派分类使用这个神经网络。我看过它,理解它是非常教条的:

  • 首先你要了解您的音频数据 (看看 here )。在此链接中,他解释了 MFCC(梅尔频率倒谱系数),它允许您将音频数据的特征提取到频谱图中。在下图中,MFCC 的每个幅度代表音频的一个特征(例如说话者语音的特征)。
    Each amplitude of the MFCC represents a feature of the audio (e.g. features of the speaker voice)
  • 那么你必须为分类预处理数据 (实际示例 here)
  • 然后训练您的神经网络以预测音频属于哪个说话者 .他显示 here ,但我建议您观看整个系列。我认为这是我见过的关于这个主题的最好的文章,提供了解决此类说话人分类问题所需的所有背景、代码和数据集。

  • 希望您喜欢这些链接,它们确实帮助了我,并且肯定会解决您的问题。

    关于python - 语音聚类的聚类算法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60559163/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com