gpt4 book ai didi

text-to-speech - 在 SSML 中为 TTS 使用 标签时出现不需要的停顿

转载 作者:行者123 更新时间:2023-12-05 07:30:27 35 4
gpt4 key购买 nike

我正在为 VUI 工具编写和标记语音。我们正在使用 Google Cloud Wave-net对于我们的 TTS 服务,我一直在尝试使用 SSML 使 TTS 输出更自然。当我添加标签“prosody”时,TTS 输出会在标签开始前添加一个停顿,如下所示:

<speak>
Rebecca is allergic to <prosody rate="slow" range="high">soybean oil.</prosody> Would you like to cancel this order?
</speak>

在此示例中,TTS 输出在“to”和“soybean oil”之间暂停。这只是一个愚蠢的例句,但在我们真正的产品中,我们需要使用这种标签来强调和区分复杂的词。

有没有其他人遇到过这个问题?有什么建议吗?

最佳答案

看起来像range不是 Google Cloud TTS ssml spec 的一部分.它是 Microsoft's spec 的一部分不过,也许这就是您的想法。

如果您仍在尝试消除这样的差距,理论上您可以使用 <seq>标记以使片段稍微重叠,但这似乎非常困难。

关于text-to-speech - 在 SSML 中为 TTS 使用 <prosody> 标签时出现不需要的停顿,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52282588/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com