gpt4 book ai didi

speech-recognition - 如何结合语音识别和说话人二值化?

转载 作者:行者123 更新时间:2023-12-04 07:51:26 28 4
gpt4 key购买 nike

我正在尝试结合语音识别和说话人二值化技术来识别对话中有多少说话人以及哪个说话人说了什么。

为此,我使用 CMU SphinxLIUM Speaker Diarization .

我可以分别运行这两个工具,即我可以运行 Sphinx 4 并从音频中获取文本输出,然后运行 ​​LIUM 工具包并获取音频片段。

现在我想将这两者结合起来,得到如下所示的输出:

s0 : this is my first sentence.
s1 : this is my reply.
s2: i do not what you are talking about

有谁知道如何结合这两个工具包?

最佳答案

运行二值化工具以获取每个演讲者的分段时间。它们看起来像这样:

file1 1 16105 217 M S U S9_file1
file1 1 16322 1908 M S U S9_file1
file2 1 18232 603 M S U S9_file2

16106、217等数字是段起始和段长。解析文本输出并将时间存储在数组中。

然后使用时间将原始音频分割成片段。

使用 Sphinx4 分别处理每个片段并显示转录。

可选地,对每个说话人的片段运行说话人自适应,并使用说话人自适应模型再次处理每个片段。

关于speech-recognition - 如何结合语音识别和说话人二值化?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15782246/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com