gpt4 book ai didi

iphone - 构建 openears 兼容的语言模型

转载 作者:行者123 更新时间:2023-12-03 18:21:48 25 4
gpt4 key购买 nike

我正在对语音转文本和文本转语音进行一些开发,我发现了 OpenEars API 非常有用。

这个的原理cmu-slm基于 API 的一点是它使用语言模型来映射 iPhone 设备收听的语音。因此,我决定寻找一个大型英语语言模型来为 API 语音识别器引擎提供支持。但我无法理解与 OpenEars 一起使用的 voxfourge 英语数据模型的格式。

有人知道如何获得英语语言的 .languagemodel 和 .dic 文件以便与 OpenEars 配合使用吗?

最佳答案

关于 LM 格式:

据我所知,大多数语言模型都使用 ARPA 语言模型标准。 Sphinx/CMU语言模型被编译成二进制格式。您需要源格式才能将 Sphinx LM 转换为另一种格式。大多数其他语言模型都是文本格式。

我建议使用 HTK 语音识别工具包;详细文档在这里:http://htk.eng.cam.ac.uk/ftp/software/htkbook_html.tar.gz

这里还有 CMU 的 SLM 工具包的说明:http://www.speech.cs.cmu.edu/SLM/toolkit_documentation.html

这是我在网上找到的 ARPA 格式的语言模型示例:http://www.arborius.net/~jphekman/sphinx/full/index.html

您可能想首先创建 ARPA LM,然后根据需要将其转换为任何二进制格式。

一般情况:

要构建语言模型,您需要大量训练数据 - 在观察到该时间点的当前输入后,确定词汇表中任何其他单词的概率。

您不能仅通过添加您想要识别的单词来“创建”语言模型 - 您还需要大量训练数据(= 在运行语音识别应用程序时观察到的典型输入)。

语言模型不仅仅是一个单词列表——它估计输入中下一个标记(单词)的概率。要估计这些概率,您需要运行一个训练过程,该过程会检查训练数据(例如历史数据),并观察其中的词频以估计上述概率。

对于您的问题,也许作为一个快速解决方案,只需假设所有单词具有相同的频率/概率。

  1. 用您想要识别的单词创建一个字典(字典中有 N 个单词)

  2. 创建一个语言模型,每个单词的概率为 1/N(uni-gram 语言模型)

然后,您可以使用 HTK Toolkit 将一元语言模型 (LM) 与另一个 LM 进行插值,以获得更大的语料库

关于iphone - 构建 openears 兼容的语言模型,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5220661/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com