gpt4 book ai didi

api - 将语音分解为音素的API/根据语音样本合成新语音?

转载 作者:行者123 更新时间:2023-12-03 13:56:39 28 4
gpt4 key购买 nike

您知道那些技术极客会录制某人声音的电影,而他们的软件将这些声音分解为音素吗?然后,他们可以使用哪一个键入任何短语,并使其看起来好像目标在说这句话?

该软件是否存在于API版本中?我什至不知道谷歌怎么办。

最佳答案

没有这样的软件。将任意语音转换为其组成的音素只是部分解决的问题:speech-to-text软件仍然不完善,text-to-speech也是如此。

想法是重现目标语音的timbre。即使您能够完美地分割音频,对音素重新排序也会产生带有不自然节奏和语调的音频,更不用说剪接人工产物了。到那时,您将进入平滑,时间缩放和音高校正,所有这些在理论上都是可能的并且易于理解,但是在现实世界的数据上运行不佳,尤其是当所涉及的音频样本短至单个音素,以及需要保留音色的时间。

这些问题在语音方面由于基于重音和周围音素的声音变化而变得更加复杂。为了忠实地产生低质量的音频近似值,您需要详细了解目标的语言,口音和语音模式。

此外,您的最终问题是allophonic之一,当涉及到他们认识的人的声音时,人们并不容易愚弄。即使有大量的输入数据,充其量也只能得到一个简短的低质量样本,不足以进行对话。

因此,虽然有可能,但是很困难。即使它存在,也不一定总是足够好。

关于api - 将语音分解为音素的API/根据语音样本合成新语音?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7019999/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com