gpt4 book ai didi

c# - .Net 中的音素语音

转载 作者:太空狗 更新时间:2023-10-29 22:59:30 26 4
gpt4 key购买 nike

问题是我想获取 C# 语言语音的音素。假设你有一个像“x.wav”这样的音频文件,上面写着“你好亲爱的沙米姆”。我想提取语音的所有音素及其相对时间。类似于下图:

Phoneme Editor

我使用了 System.Speech 库(recognitionsynthesis 命名空间)但我没有找到我想要的。现在不要误会!我不想要句子“你好亲爱的沙米姆”的音素,我想从一个未知的说英语的音频输入和英语句子中提取音素。我试过 System.Speech.Recognition 但它试图从音频文件中提取单词,而不是音素!正如您可能猜到的那样,这些词有 30% 是错误的! ;)

最佳答案

与单词识别相比,音素识别需要一些专门的设置,而且大多数引擎不直接支持它(单音“单词”的字典通常不会产生很好的准确性)。一个很大的原因是音素识别远不如单词识别准确,因为单词识别更受限制(它过滤掉所有不映射到真实单词的电话组合,这是大多数)。但是 HTK 确实支持它。您可以通过执行 shell 命令(从 C# 执行此操作没有什么坏处)或调用库来使用它。

关于c# - .Net 中的音素语音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20770593/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com