- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
您知道那些技术极客会录制某人声音的电影,而他们的软件将这些声音分解为音素吗?然后,他们可以使用哪一个键入任何短语,并使其看起来好像目标在说这句话?
该软件是否存在于API版本中?我什至不知道谷歌怎么办。
最佳答案
没有这样的软件。将任意语音转换为其组成的音素只是部分解决的问题:speech-to-text软件仍然不完善,text-to-speech也是如此。
想法是重现目标语音的timbre。即使您能够完美地分割音频,对音素重新排序也会产生带有不自然节奏和语调的音频,更不用说剪接人工产物了。到那时,您将进入平滑,时间缩放和音高校正,所有这些在理论上都是可能的并且易于理解,但是在现实世界的数据上运行不佳,尤其是当所涉及的音频样本短至单个音素,以及需要保留音色的时间。
这些问题在语音方面由于基于重音和周围音素的声音变化而变得更加复杂。为了忠实地产生低质量的音频近似值,您需要详细了解目标的语言,口音和语音模式。
此外,您的最终问题是allophonic之一,当涉及到他们认识的人的声音时,人们并不容易愚弄。即使有大量的输入数据,充其量也只能得到一个简短的低质量样本,不足以进行对话。
因此,虽然有可能,但是很困难。即使它存在,也不一定总是足够好。
关于api - 将语音分解为音素的API/根据语音样本合成新语音?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7019999/
这是我的代码: #!/usr /bin/env python import os import sphinxbase as sb import pocketsphinx as ps MODELDIR
Alexa 能够使用 IPA 音素进行语音说话......下面的示例 You say, pecan. I say, pecan. 我在 Google Home 的任何地方都看不到这
我是一名优秀的程序员,十分优秀!