gpt4 book ai didi

audio - 用于语音/说话人识别的 CMU Sphinx

转载 作者:行者123 更新时间:2023-12-04 15:46:02 28 4
gpt4 key购买 nike

我正在寻找一种匹配已知数据集的方法,假设是一个 MP3 或 wav 文件列表,每个文件都是某人讲话的样本。在这一点上,我知道文件 ABC 是 X 说话的人。

然后,我想再取一个样本,并进行一些语音匹配,以根据当时已知的数据集显示这个声音最有可能是谁。

另外,我不一定在意这个人说了什么,只要我能找到匹配项,即我不需要任何转录或其他方式。

我知道 CMU Sphinx 不进行语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization (http://cmusphinx.sourceforge.net/wiki/Speakerdiarization)或使用 CMU 作为此类工作基础的 VoiceID 项目 (https://code.google.com/p/voiceid/)。

如果我要使用CMU,如何进行语音匹配?

另外,如果 CMU Sphinx 不是最好的框架,那么是否有开源的替代方案?

最佳答案

对于博士论文来说,这是一个足够复杂的主题。目前还没有好的和可靠的系统。

你要完成的任务是一项非常复杂的任务。你应该如何处理它取决于你的情况。

  • 你有人数限制吗?多少?
  • 你每个人有多少数据?

  • 如果您有 很少有人认识 ,您可以尝试获取 formants 之类的简单方法。这些人并将他们与样本进行比较。

    否则 - 您必须联系一些研究该主题的学者或陪审团制定您自己的解决方案。无论哪种方式,正如我所说,这是一个难题。

    关于audio - 用于语音/说话人识别的 CMU Sphinx,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14248983/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com