gpt4 book ai didi

audio - 语音分割语音

转载 作者:行者123 更新时间:2023-12-03 00:51:10 24 4
gpt4 key购买 nike

我有一个长文本的音频文件,该文件的各个部分均以“Chapter”(由同一位发言人讲述)开头。有没有办法按照这些词将音频文件拆分为较小的文件?

我正在考虑切除“章节”一词的出现,将其放在单独的音频文件中,然后使用一些工具对原始音频与短片段进行模糊匹配,以找到“章节”的出现并拆分原始内容在这些情况下归档。

哪个工具可以做到这一点? SOX?大胆?

最佳答案

那将是可行的。您需要执行两个步骤:

  • 检测单词出现的时间
  • 根据时间剪切音频。

  • 要检测时间,您可以使用Pocketsphinx主干中的关键字发现工具,只需从subversion checkout Pocketsphinx并进行构建即可。它将安装pocketsphinx_kws二进制文件以发现关键字。然后,您可以在音频中搜索单词时间,该音频必须为16khz 16位MSWAV格式:
     pocketsphinx_kws -infile barnabyrudge_07_dickens.wav -kws "chapter"
    ...
    INFO: kws_search.c(229): >>>>DETECTED IN FRAME [2138]
    INFO: kws_search.c(229): >>>>DETECTED IN FRAME [2182]
    INFO: kws_search.c(229): >>>>DETECTED IN FRAME [92149]

    帧速率为100帧/秒,因此您可以看到在21.38s和921.49 s处检测到该章(当用户说“章结束”时)

    最好使用较长的短语进行检测,短语越长,检测效果越好。为了获得最佳检测,您可以调整阈值。

    要剪切音频,可以使用sox,可以使用 trim命令删除开始,而使用 trim + reverse剪切结束。

    关于audio - 语音分割语音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21010118/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com