gpt4 book ai didi

audio - 说话人识别

转载 作者:行者123 更新时间:2023-12-01 07:21:51 26 4
gpt4 key购买 nike

关闭。这个问题需要更多focused .它目前不接受答案。












想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .

4年前关闭。




Improve this question




如何区分两个人说话?就像有人说“你好”然后另一个人说“你好”我应该在音频数据中寻找什么样的签名?周期性?

非常感谢任何能回答这个问题的人!

最佳答案

这个问题的解决方案在于数字信号处理 (DSP)。说话人识别是一个复杂的问题,它使计算机和通信工程携手并进。大多数说话人识别技术都需要使用机器学习进行信号处理(对说话人数据库进行训练,然后使用训练数据进行识别)。可以遵循的算法大纲 -

  • 记录 原始格式的音频。这用作 数字信号这是需要处理的。
  • 申请一些 预处理例程通过捕获的信号。这些例程可以是简单的信号 标准化 , 或 过滤 去除噪声的信号(对人类语音的正常频率范围使用带通滤波器。可以依次使用低通和高通滤波器组合创建带通滤波器。)
  • 一旦确定捕获的信号几乎没有噪声,特征提取阶段开始。一些用于提取语音特征的已知技术是 - 梅尔频率倒谱系数 ( MFCC )、线性预测编码 ( LPC ) 或简单的 |119567 FFT 特征。
  • 现在,有两个阶段 - 训练和测试 .
  • 首先系统需要是对语音特征进行训练 在它能够区分不同的扬声器之前。为了确保正确计算特征,建议必须收集来自说话者的多个 (>10) 语音样本用于训练目的。
  • 可以使用不同的技术进行训练,例如 神经网络或基于距离的分类 找出不同说话人声音特征的差异。
  • 在测试阶段,训练数据用于找到与被测信号距离最小的语音特征集。不同距离如 欧几里得或切比雪夫 距离可用于计算这种接近度。

  • 有两个开源实现可以启用说话人识别 - 艾莉丝 : http://mistral.univ-avignon.fr/index_en.html MARF : http://marf.sourceforge.net/ .

    我知道回答这个问题有点晚,但我希望有人觉得它有用。

    关于audio - 说话人识别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4837511/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com