gpt4 book ai didi

iOS/C : Algorithm to detect phonemes

转载 作者:IT王子 更新时间:2023-10-29 08:12:02 25 4
gpt4 key购买 nike

我正在寻找一种算法来确定实时音频输入是否与 144 个给定(且截然不同的)音素对中的一个相匹配。

最好是完成工作的最低级别。

我正在为 iPhone/iPad 开发激进/实验性的音乐训练软件。

我的音乐系统包括 12 个辅音音素和 12 个元音音素,演示了 here .这使得 144 个可能的音素对。学生必须根据视觉刺激唱出正确的音素对“laa duu bee”等。

我对此做了很多研究,看起来我最好的选择可能是使用 iOS Sphinx 包装器之一(iPhone App › Add voice recognition? 是我找到的最好的信息来源)。但是,我看不出我将如何调整这样一个包,任何有使用这些技术经验的人都可以给出所需步骤的基本概述吗?

用户是否需要培训?我本以为不会,因为与包含数千个单词的完整语言模型和更大、更微妙的音素库相比,这是一项如此基本的任务。然而,让用户训练 12 个音素对是可以接受的(不理想):{ consonant1+vowel1, consonant2+vowel2, ..., consonant12+vowel12 }。完整的 144 太累了。

有没有更简单的方法?我觉得使用功能齐全的连续语音识别器就像使用大锤来破解坚果一样。使用能够解决问题的最少技术会优雅得多。

所以我真的在寻找任何识别音素的开源软件。

PS 我需要一个几乎实时运行的解决方案。所以即使他们在唱这个音符,首先它会闪烁以说明它拾取了所唱的音素对,然后它会发光以说明他们是否在唱正确的音高

最佳答案

如果您正在寻找手机级开源识别器,那么我会推荐HTK .该工具以 HTK Book 的形式提供了非常好的文档。它还包含一整章专门用于构建电话级别的实时语音识别器。从您上面的问题陈述来看,在我看来您可能能够将该示例重新工作到您自己的解决方案中。可能的陷阱:

  1. 既然要做手机级别的识别器,那么训练手机模型所需的数据量会非常大。此外,您的训练数据库应该在电话分布方面保持平衡。

  2. 构建独立于说话人的系统需要来自多个说话人的数据。还有很多。

  3. 由于这是开源的,您还应该查看许可信息以了解有关发布代码的任何其他详细信息。一个很好的选择是使用手机上的录音机,然后将录制的波形通过数据通道发送到服务器进行识别,这与谷歌所做的非常相似。

关于iOS/C : Algorithm to detect phonemes,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6387062/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com