- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
在尝试使用适用于 Android 的 PocketSphinx 之前,我使用了 Google 的语音识别 API。我不需要设置搜索名称或字典文件。它只是认出了被告知的每一个词。
现在,在 PocketSphinx 中,我需要这样做。但我只能找到如何为一个词设置识别,或者设置识别器认为这些是唯一存在的词的词典(演示项目中可用的只有几个词),这意味着如果有人说类似的话,识别器认为它是字典中列出的单词。
我只想问,如何设置几个搜索名称,或者如何设置它来识别所有可用的单词(甚至是大量的单词)?也许有人有一个包含大量单词的字典文件?
最佳答案
Before I tried to used PocketSphinx for Android, I used Google's voice recognition API. I didn't need to set a search name or a dictionary file. It just recognized every word that was told.
Google API 也可以识别大量但仍然有限的词集。很长一段时间它都无法识别“Spotify”。谷歌离线语音识别器使用大约 50k 个单词,如他们的 publication 中所述。 .
I just want to ask, How could I set a few search names, Or how could I set it to recognize all the words available (or even a large amount of them)? Maybe someone has a dictionary file with a big number of words?
演示包括使用语言模型(预测部分)进行大词汇量语音识别。有更大的英语语言模型可供下载,例如 En-US generic language model .
运行识别的简单代码如下:
recognizer = defaultSetup()
.setAcousticModel(new File(assetsDir, "en-us-ptm"))
.setDictionary(new File(assetsDir, "cmudict-en-us.dict"))
.getRecognizer();
recognizer.addListener(this);
// Create keyword-activation search.
recognizer.addNgramSearch(NGRAM_SEARCH, new File(assetsDir, "en-us.lm.bin"););
// Start the search
recognizer.startListening(NGRAM_SEARCH);
但是,它们不容易装入设备并实时解码。如果你想实时解码大量词汇的语音,你需要将音频流式传输到服务器。或者您需要将词汇和语言限制为通用英语的一小部分。您可以在 tutorial 中了解有关 CMUSphinx 中语音识别的更多信息.
关于android - CMUSphinx PocketSphinx - 识别所有(或大量)单词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25949295/
我对 Sphinx 很陌生。我想使用 Sphinx 进行语音到文本的转换。我试着用谷歌搜索它。 Sphinx 使用 gram 文件来匹配单词。但这样就限制了言语的可能性。我想处理或只是将所说的每个单词
我可以使用Sphinx4随附的使用中的东西,没问题: cfg.setAcousticModelPath("resource:/edu/cmu/sphinx/models/en-us/en-us") c
我想知道与假设相关的数字/分数是什么意思。在我的识别结果中,通常是数万级的负数。例如,解码后的假设可能看起来像“什么是苹果”,得分为-70021。所以我想知道这个分数是否表明了假设的准确性/置信度。我
我目前正在使用 Pocketsphix 演示(android 和 Visual Studio 2010)并且我已经配置了一个 jsgf 语法 像这样 #JSGF V1.0; grammar Nam
我开始研究口袋狮身人面像。我有一个用于配置解码器的可能参数列表。但没有说明哪个参数负责哪个配置。在 tutorial CMUSphinx这只是其中的一小部分。这对我来说还不够。有人有资料,解释了哪些参
我发现有很多参数可以调整语音识别(例如 pocketsphinx_continuous 应用程序中的输入参数)。许多参数是枚举,其他是 float 值。在哪里可以找到 pocketsphinx_con
Sphinx 似乎无法识别或处理音频文件,它接受音频流吐出一个空数组(SpeechResult 结果)。我觉得我正在使用的音频文件没有任何问题,因为我已经尝试了几个,但对其中任何一个都不起作用。有没有
目前我在 java 桌面应用程序中使用 Sphinx4 来将一些语音/单词与 xxx.gram 文件匹配。我没有在我的系统中安装 sphinx 而我只是在我的项目的类路径中使用 sphinx4.jar
CMU Sphinx 识别现场语音太慢了,不知道大家有没有什么办法可以提升一下? 这是我的配置: configuration.setAcousticModelPath("WSJ_8gau_13dCep
虽然最初我在使 sphinx 4 工作时遇到了一些问题,但现在它工作得很好。由于无论是 JSGF 还是 N-Gram 语法都是有限的,我无法让 sphinx 识别每个可能的单词或句子。我想建立类似基于
我正在寻找德语发音词典,以便用于 PocketSphinx/CMU Sphinx。 字典看起来像这样: BACK B AE K CALL K AO L NO N OW NUMBER N
为清楚起见进行编辑:我从 sphinx 获得的输出与我的声音文件中的实际单词并不接近。我需要做什么才能使其更准确? Here's the file我正在尝试从中获取成绩单。它应该以 8K 的采样率。
我正在考虑为我的应用程序使用 Pocketsphinx 离线语音识别,但它的文档不清楚。如果有人可以给出以下问题的答案,那么它真的会对我有很大帮助。 setKeywordThreshold(1e-5f
我已经为一个软件创建了我自己的阿拉伯语 CMUSphinx 语言模型,该软件将听取用户的意见并使用我自己的字典应用命令,我已经手动完成,将“arpa”语言模型类型转换为“dmp”语言模型使用命令 sp
我正在尝试使用 CMUSphinx 和 Java 实现德国命令和控制应用程序。到目前为止,应用程序应该只能识别几个单词(从 1 到 9 的数字,是/否)。 不幸的是,准确性非常差。看来,如果一个单词被
我导入了这个项目: https://github.com/cmusphinx/pocketsphinx-android-demo 而且它在 Android studio 上运行良好。 但是正如您在教程
E_INFO 正在打印一堆日志。我不知道如何才能将其关闭。我从 pocket/base sphinx 中的所有源文件中搜索了 E_INFO,但无法找到它设置标志的位置。 最佳答案 配置选项 -logf
例如,我使用 Sphinx 5 得到的结果很差,如果我说“main”,我会在 4 分钟“mate”后得到结果。那么有没有办法可以提高 CMUSphinx 5 的速度和准确性?这是我正在使用的代码:
我正在尝试在 Windows 10 上安装 Pocketsphinx。我已经下载了 Pocketsphinx 和 sphinxbase,构建了它们,并将 sphinxbase.dll 放入了 Pock
pocket sphinx 或 cmu sphinx 是否有一些命令行实用程序可以将 .wav 文件转换为文本? pocketsphinx_continuous -hmm -lm -dict 就可以了
我是一名优秀的程序员,十分优秀!