java - 如何使用 java 和 CMU Sphinx 将音频文件分解为多个片段，然后将分解的音频文件转录为文本-6ren

java - 如何使用 java 和 CMU Sphinx 将音频文件分解为多个片段，然后将分解的音频文件转录为文本

转载作者：行者123 更新时间：2023-11-30 07:57:24

25

4

我已经编写了一个代码，可以将音频文件转录为文本，但我的问题是我想将音频文件分成几部分，然后我想一个接一个地转录该中断的音频文件，请帮助我

        StreamSpeechRecognizer recognizer;
        try
        {
            recognizer = new StreamSpeechRecognizer( configuration);
            java.io.InputStream stream = AppRunner.class.getResourceAsStream(splitFile(new File("/com/dsquare/Arabtec_Construction_INDIA_Private_Limited_convert.wav")));

            System.out.println(stream);
            stream.skip(44);

            // Simple recognition with generic model
            recognizer.startRecognition(stream);
            SpeechResult result;
            while ((result = recognizer.getResult()) != null) 
            {

             System.out.format("Hypothesis: %s\n", result.getHypothesis());

             System.out.println("List of recognized words and their times:");
             for (WordResult r : result.getWords()) 
             {
             System.out.println(r);
             }

            // System.out.println("Best 3 hypothesis:");
             for (String s : result.getNbest(3))
             {
         System.out.println(s);
          }
            recognizer.stopRecognition();

        }
        }
        catch (IOException e)
        {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }







    public static String splitFile(File f) throws IOException {
        int partCounter = 1;//I like to name parts from 001, 002, 003, ...
                            //you can change it to 0 if you want 000, 001, ...

        int sizeOfFiles = 1024 * 1024;// 1MB
        byte[] buffer = new byte[sizeOfFiles];

        try (BufferedInputStream bis = new BufferedInputStream(
                new FileInputStream(f))) {//try-with-resources to ensure closing stream
            String name = f.getName();

            int tmp = 0;
            while ((tmp = bis.read(buffer)) > 0) {
                //write each chunk of data into separate file with different number in name
                File newFile = new File(f.getParent(), name + "."
                        + String.format("%03d", partCounter++));
                try (FileOutputStream out = new FileOutputStream(newFile)) {
                    out.write(buffer, 0, tmp);//tmp is chunk size
                }
            }
        }
        return null;
    }

}

最佳答案

要以智能方式破坏音频文件，您可以考虑分类工具，例如 Lium 小组开发的这个工具。

http://www-lium.univ-lemans.fr/diarization/doku.php/welcome

此工具将为您提供一个包含过渡时间的 *.seg 文件。然后，使用ffmpeg或类似工具来剪切文件。

关于java - 如何使用 java 和 CMU Sphinx 将音频文件分解为多个片段，然后将分解的音频文件转录为文本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32479267/

25

4

0

文章推荐： java - 仅具有 setter(而不是属性)的 Maven 插件

文章推荐： java - 开闭原则与构造函数

java - CMU sphinx4支持非英语语音识别吗
我知道sphinx 3(现在称为Pocketsphinx)支持非英语语音识别，如德语、西类牙语和中文。但是 sphinx 4 也支持这些语言吗？要做语音识别，需要三个文件:声学模型文件、语言模型文件
dictionary - 来自 CMU 发音数据库的押韵词典
我正在寻找免费或开源的押韵数据库。我找到了 CMU 发音“数据库”及其一系列应用程序，但我无法理解它们或弄清楚数据来自哪里。我只需要一个包含单词及其音素的简单文本文件。这里有人知道我在哪里可以找
cmusphinx - CMU Sphinx 德语发音词典
我正在寻找德语发音词典，以便用于 PocketSphinx/CMU Sphinx。字典看起来像这样: BACK B AE K CALL K AO L NO N OW NUMBER N
performance - 调整 CMU Sphinx
我正在尝试基于 CMU Sphinx 构建语音识别应用。我使用 lmtool 创建了自己的语言模型。但是为了提高识别的准确率，我想调Sphinx。但是对于选择 absoluteBeamWidth、re
java - CMU Sphinx4 无法构建项目
尝试构建 Sphinx4 Core 项目时我收到错误/警告 100 errors 100 warnings MavenReportException: Error while creating ar
python - 反向音素未包含在 CMU 词典中
卡内基梅隆大学发音词典允许从单词中获取音素。我在互联网上做了一些研究，似乎有一些扩展如 LOGIOS Lexicon Tool，它可以派生出可能未包含在原始 CMU 词典中的任意单词的音素( http
java - 声学模型路径未正确设置 CMU Sphinx
下面写的代码是在Java 1.6和Eclipse Helios中使用CMU Sphinx将音频转换为文本。 import java.io.FileInputStream; import java.io
java - CMU Sphinx 转录准确性
我正在开发网络语音识别应用程序。我正在使用 recorderJS 捕获声音并将其发送到后端，并在后端使用 CMU Sphinx 对其进行处理。我在发现最新版本 5prealpha 的库时遇到了准确性
java - CMU Sphinx 翻译音频时的准确性非常低
我尝试使用以下代码使用Sphinx从音频中获取单词结果，但是准确性很低，我可以知道如何改进它吗？实际上只有前三个词是正确的，剩下的三个词无法正确检测。我已经用这个声音测试过 https://www.
java - CMU Sphinx4 音素听写
如何配置 sphinx4 以仅检测听写中的音素？我已经读过 partial results “您可以通过在解码器中设置配置变量‘featureBlockSize’来控制触发结果监听器的频率。” 但我
speech-recognition - CMU Sphinx 适应几个词
我正在尝试调整 wsj 模型以仅理解我的 4 个单词，我已经创建了一个 bash 文件并且我已经尝试了将近 20 次，但是当我运行并说“停止”时，它失败了高达 90%。这是我的 bash 文件，请告诉
audio - 用于语音/说话人识别的 CMU Sphinx
我正在寻找一种匹配已知数据集的方法，假设是一个 MP3 或 wav 文件列表，每个文件都是某人讲话的样本。在这一点上，我知道文件 ABC 是 X 说话的人。然后，我想再取一个样本，并进行一些语音匹配
java - 如何检测 CMU Sphinx 中的词汇表单词
我在使用 Java 版 Sphinx 语音识别库时遇到问题。我用它来获取输入并处理它。在语法文件中，我是这样写的: #JSGF V1.0; grammar hello; public = (play
java - cmu sphinx java - 可执行示例代码
我最近安装了 CMU Sphinx4，用于需要语音识别的 Java 应用程序。然而，我可以在网上找到的大多数 Sphinx4 源代码在 Eclipse 中都显示一些错误。我下载了 JAR 文件(sph
java - 如何使用 CMU Sphinx 将音频文件转换为文本
我正在尝试转换音频文件，下面是我的代码 public class test { public static void main(String[] args) throws Exception
java - 在 CMU sphinx4 中获取语言分数
我希望能够预测口语中单词的语言，然后在 cmu sphinx 中使用相应的语言和声学模型但是我不知道去哪里找每个单词的语言分数最佳答案 Sphinx4不支持语言识别关于java - 在 CMU s
android - CMU-Sphinx android 构建错误
我最近在 Android 上使用 CMU-Sphinx。当我尝试从网站构建示例项目时，出现以下错误: "Compile thumb : pocketsphinx_jni <= pocketsphinx
android - 如何在我的应用程序中使用 CMU Flite TTS 引擎？
我正在开发一个用于印度语言文本到语音的 android 应用程序，并且 CMU Flite 提供印度语言语音数据库。但我不知道如何在我的应用程序中使用这个插件。请帮我。我可以通过哪种方式在自己的应用程
speech-recognition - 如何为 CMU Sphinx 构建大词汇量语言模型？
我想为 CMU Sphinx 建立一个语言模型，但我的语料库有 1000 多个单词，因此无法使用在线工具。我如何使用(cmuclmtk 中的脚本？)来构建我的语言模型？最佳答案请阅读教程 http
java - CMU Sphinx 5prealpha(语音识别系统)安装
我想试试 sphinx 的最新版本，但不知道如何安装。第 4 版非常简单，我使用了演示，例如 Hello World 并附加了库(jsapi、sphinx4、 TDIFITS, WSJ) 添加到项目

首页

博学

6Ren·AI

商城

java - 如何使用 java 和 CMU Sphinx 将音频文件分解为多个片段，然后将分解的音频文件转录为文本