- xml - AJAX/Jquery XML 解析
- 具有多重继承的 XML 模式
- .net - 枚举序列化 Json 与 XML
- XML 简单类型、简单内容、复杂类型、复杂内容
我正在寻找如何将 CMU Sphinx 与 Ruby (Rails) 应用程序结合使用。我需要非常简单的任务 - 我有一个 mp3 文件,我想将它转录成文本。
如何实现这种最简单的方法?我不知道 C/C++,我的任务也不是为了学习 C/C++ :)
感谢您的帮助!
最佳答案
CMUSphinx 提供了多个接口(interface),您可以使用这些接口(interface)来利用语音识别功能。其中一些可能更适合您,一些不太适合您:
使用命令行工具并将它们作为 Rails 应用程序的外部二进制文件执行以获得所需的结果。要执行的工具是 pocketsphinx_continuous。有关如何从 Rails 调用二进制文件的更多信息,请参阅以下问题: how to execute binary on heroku?
您可以使用 JVM 从 JRuby 调用 Sphinx4 框架,参见有关如何使用 Sphinx4 的示例 JRuby : http://cmusphinx.sourceforge.net/wiki/tutorialsphinx4#writing_scripts
您可以使用 SWIG 实现 pocketsphinx 绑定(bind).简单的部分是 Python 的 swig 包装器已经作为 pocketsphinx 的一部分存在,您只需要使用 SWIG 生成 Ruby 包装器:https://sourceforge.net/p/cmusphinx/code/11643/tree/trunk/pocketsphinx/swig/
最后,您可以使用 Java REST 框架实现 REST 网络,以使用 CMUSphinx 工具将音频转换为文本,并从您的 Ruby 代码调用该服务。有关详细信息,请参阅信息如何使用 REST from Rails这样您就可以使您的系统真正具有可扩展性。
关于ruby-on-rails - 如何在 Ruby 应用程序中使用 CMU Sphinx 语音识别?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13294252/
我知道sphinx 3(现在称为Pocketsphinx)支持非英语语音识别,如德语、西类牙语和中文。但是 sphinx 4 也支持这些语言吗? 要做语音识别,需要三个文件:声学模型文件、语言模型文件
我正在寻找免费或开源的押韵数据库。 我找到了 CMU 发音“数据库”及其一系列应用程序,但我无法理解它们或弄清楚数据来自哪里。 我只需要一个包含单词及其音素的简单文本文件。 这里有人知道我在哪里可以找
我正在寻找德语发音词典,以便用于 PocketSphinx/CMU Sphinx。 字典看起来像这样: BACK B AE K CALL K AO L NO N OW NUMBER N
我正在尝试基于 CMU Sphinx 构建语音识别应用。我使用 lmtool 创建了自己的语言模型。但是为了提高识别的准确率,我想调Sphinx。但是对于选择 absoluteBeamWidth、re
尝试构建 Sphinx4 Core 项目时 我收到错误/警告 100 errors 100 warnings MavenReportException: Error while creating ar
卡内基梅隆大学发音词典允许从单词中获取音素。我在互联网上做了一些研究,似乎有一些扩展如 LOGIOS Lexicon Tool,它可以派生出可能未包含在原始 CMU 词典中的任意单词的音素( http
下面写的代码是在Java 1.6和Eclipse Helios中使用CMU Sphinx将音频转换为文本。 import java.io.FileInputStream; import java.io
我正在开发网络语音识别应用程序。我正在使用 recorderJS 捕获声音并将其发送到后端,并在后端使用 CMU Sphinx 对其进行处理。 我在发现最新版本 5prealpha 的库时遇到了准确性
我尝试使用以下代码使用Sphinx从音频中获取单词结果,但是准确性很低,我可以知道如何改进它吗?实际上只有前三个词是正确的,剩下的三个词无法正确检测。 我已经用这个声音测试过 https://www.
如何配置 sphinx4 以仅检测听写中的音素? 我已经读过 partial results “您可以通过在解码器中设置配置变量‘featureBlockSize’来控制触发结果监听器的频率。” 但我
我正在尝试调整 wsj 模型以仅理解我的 4 个单词,我已经创建了一个 bash 文件并且我已经尝试了将近 20 次,但是当我运行并说“停止”时,它失败了高达 90%。这是我的 bash 文件,请告诉
我正在寻找一种匹配已知数据集的方法,假设是一个 MP3 或 wav 文件列表,每个文件都是某人讲话的样本。在这一点上,我知道文件 ABC 是 X 说话的人。 然后,我想再取一个样本,并进行一些语音匹配
我在使用 Java 版 Sphinx 语音识别库时遇到问题。我用它来获取输入并处理它。在语法文件中,我是这样写的: #JSGF V1.0; grammar hello; public = (play
我最近安装了 CMU Sphinx4,用于需要语音识别的 Java 应用程序。然而,我可以在网上找到的大多数 Sphinx4 源代码在 Eclipse 中都显示一些错误。我下载了 JAR 文件(sph
我正在尝试转换音频文件,下面是我的代码 public class test { public static void main(String[] args) throws Exception
我希望能够预测口语中单词的语言,然后在 cmu sphinx 中使用相应的语言和声学模型但是我不知道去哪里找每个单词的语言分数 最佳答案 Sphinx4不支持语言识别 关于java - 在 CMU s
我最近在 Android 上使用 CMU-Sphinx。当我尝试从网站构建示例项目时,出现以下错误: "Compile thumb : pocketsphinx_jni <= pocketsphinx
我正在开发一个用于印度语言文本到语音的 android 应用程序,并且 CMU Flite 提供印度语言语音数据库。但我不知道如何在我的应用程序中使用这个插件。请帮我。我可以通过哪种方式在自己的应用程
我想为 CMU Sphinx 建立一个语言模型,但我的语料库有 1000 多个单词,因此无法使用在线工具。我如何使用(cmuclmtk 中的脚本?)来构建我的语言模型? 最佳答案 请阅读教程 http
我想试试 sphinx 的最新版本,但不知道如何安装。 第 4 版非常简单,我使用了演示,例如 Hello World 并附加了库(jsapi、sphinx4、 TDIFITS, WSJ) 添加到项目
我是一名优秀的程序员,十分优秀!