gpt4 book ai didi

speech-recognition - 语音检测和判别的开源代码

转载 作者:行者123 更新时间:2023-12-03 10:59:49 24 4
gpt4 key购买 nike

我有 15 盘录音带,其中一个我相信其中包含我祖母和我自己谈话的旧录音。快速尝试找到合适的地方并没有成功。我不想听20个小时的磁带来找到它。该位置可能不在其中一个磁带的开头。大多数内容似乎分为三类——按照总长度的顺序,最长的在前:静音、语音广播和音乐。

我计划将所有磁带转换为数字格式,然后再寻找录音。显而易见的方法是在我做其他事情时在后台播放它们。这对我来说太简单了,所以:是否有任何开源库或其他代码可以让我按照提高复杂性和实用性的顺序找到:

  • 非静音区域
  • 包含人类语音的区域
  • 包含我自己(以及我祖母的)演讲的区域

  • 我的偏好是 Python、Java 或 C。

    失败的答案,有关搜索词的提示将不胜感激,因为我对该领域一无所知。

    我知道我可以轻松地在这上面花费 20 多个小时。

    最佳答案

    大多数情况下,您可能节省的是扬声器分类。这是通过使用说话者 ID 对录音进行注释来实现的,然后您可以轻松地将其手动映射到真实的人。错误率通常约为记录长度的 10-15%,这听起来很糟糕,但这包括检测到太多说话者并将两个 ID 映射到同一个人,这并不难修复。

    一个这样的好工具是 SHoUT toolkit (C++),尽管它对输入格式有点挑剔。查看此工具的用法 from author .它输出 语音/语音事件检测 元数据和 扬声器分类 ,这意味着您会得到第 1 点和第 2 点 (VAD/SAD) 以及一点额外的信息,因为它会注释同一说话者何时在录音中处于事件状态。

    另一个有用的工具是 LIUM spkdiarization (Java),它基本上是一样的,只是我还没有付出足够的努力来弄清楚如何获取 VAD 元数据。它具有很好的即用型 downloadable package .

    通过一点点编译,这应该可以在一个小时内完成。

    关于speech-recognition - 语音检测和判别的开源代码,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5758485/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com