gpt4 book ai didi

audio - 定义脚本中每个单词的发音开始时间

转载 作者:行者123 更新时间:2023-12-02 23:13:58 25 4
gpt4 key购买 nike

我有一个用于创建播客的文本脚本。因此,播客音频中的单词与我的文字完全相同。现在我想要的是以下内容:

Word in text | Pronounciation started at
Hello 0:0:0.000
my 0:0:1.125
friends 0:0:2.750

这有可能吗?
提前致谢!

最佳答案

可以用来解决问题复杂性的关键词之一是“强制对齐”。该网站还涵盖有关此主题的问题,例如here通过相关线程引导您提出有关HTK(隐马尔可夫模型工具包)的问题和答案。

您可以找到有关如何在自动音频分段here中使用强制对齐的更多动手风格描述。

因此答案是:是的,这是可能的,但是它在算法上非常复杂,即使在最佳实现中也不是没有错误的。

PS .:我发现您是一个非常简单的tool

关于audio - 定义脚本中每个单词的发音开始时间,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24454321/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com