gpt4 book ai didi

audio - 高质量,情感,流畅和可变的文本到语音引擎?

转载 作者:行者123 更新时间:2023-12-04 01:12:57 27 4
gpt4 key购买 nike

在查看了一些服务/工具之后,我得出了一个结论。大多数 Text-to-Speech 工具的技术含量太高、太机械化——换句话说,就是质量差的 c 语音。
是的,最重要的是,看起来它们带有“硬编码”语音模板,因此缩短了品种/定制。有些工具允许您设置阅读速度和音高,但这还不够。
我对情感方面背后问题的猜测——很难从纯文本中判断情感,如果只是一两句话就更难了。另外,好的 ol' PC 是一台机器——机器没有情感,但那是另一回事。
最困扰我的是,质量。例如,有一些工具可以用来切断单词的顶点,从而产生这些技术性的声音。感觉句子结构有问题。是的,当人们正在研究这些工具时,我想知道,是什么让他们无法再努力改进这些工具……切断顶点,这可不是小事!另外,必须记住,一个好的、高质量的文本到语音转换软件是值得的,嗯……很多!因此产生了一个非常有利可图的产品。
哦,在流利的情况下,我隐藏了问题,感叹等。 (可能这些不适用于流利程度,但我不是英语母语,如果是这种情况请见谅。)
我研究过的工具列表:
相当令人印象深刻,但仍有改进空间(++)
- Loquendo :缺乏声音多样性,有一些小的顶点/流利问题(取决于句子),太多的咳嗽和例子中的借口!
- Nuance Vocalizer : 虽然仍然缺乏多样性,但提供的一些声音是值得的。

也可以合作以获得更多资源,然后开发不同但几乎相同的产品(--)
- eSpeak :那里最好的机器人之一,因此程序标志(?!)
- Natural Reader (dumb autoplay!!) : 嗯,它有一些流利,但仍然有技术的感觉。
- iSpeech : 用英文将声音设置为日语时,笑得很开心。我敢打赌日本人对此不是很高兴。
- Cepstral + Enhanced Voices ...加上增强的声音会产生很好的糟糕结果,因此,除了大约 5 个声音之外,没有任何增强。
- AT&T : 流利度不错,但句子结尾和机器人太多有问题!
- LumenVox TTS : 看起来像是来自有很多语音工具的背景,但仍然会产生机器人声音。
- 还有一些...

如果我错过了值得一看的东西,请分享。 可以是免费的、商业的、 super 昂贵的……只要它有效,我就感兴趣!
还有问题(-s)..

  • 您认为这些声音的质量、流畅度和多样性背后的主要问题是什么? 由于情感方面很难判断,我不介意你跳过它,但如果你有一个或两个想法,我不介意你分享你的想法
  • How is text transformed into speech? 比如,这些工具背后使用了哪些算法?也许一两个新的理论会派上用场。
  • 这些实际上是不同的引擎/驱动程序还是同一驱动程序/引擎的不同语音模式?
  • 是我一个人,还是first之一之间的质量?多年来,Text2Speech 工具没有太大(或根本没有)变化? 并且不得不承认,这个老式的 Apple 工具比 2000 年以上的一些工具提供了更好的结果,至少在将视频与我所研究的内容进行比较时。)
  • 最佳答案

    我不知道您是否正在寻找一个开放的解决方案,但如果您有 Mac,您应该查看 OS X advanced speech markup和“Repeat After Me”短语构建工具。它真的很强大。 Mac OS X 10.5 及更高版本中内置的 Alex 语音比其他语音更高级。

    在 Mac 上,突出显示以下文本,按住 Control 单击,然后转到语音 > 开始朗读:

    You talkin' to me
    [[inpt PHON]] [[slnc 500]] [[rate -30]]
    +yUW _1tAOl=kIHn ~AX [[pbas +3]]+mIY?

    http://www.mattmontag.com/personal/mac-os-x-speech-synthesis-markup

    关于audio - 高质量,情感,流畅和可变的文本到语音引擎?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6400302/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com