c - pocketsphinx 无法有效识别通过麦克风录制的单词(命令)-6ren

c - pocketsphinx 无法有效识别通过麦克风录制的单词(命令)

转载作者：太空狗更新时间：2023-10-29 12:24:03

我在我的 debian 9 系统上编译了这个语音识别库 pocketsphinx 的示例 C 代码。

我在名为 goforward.raw 的文件中录制了示例音频，其中包含命令:“go forward”。

pockesphinx_continuous 程序都无法有效识别使用 Linux 上的 arecord 工具通过耳机录制的单词，给出的示例代码也无法识别。只是部分识别，即将“前进”命令识别为“前进”，这没关系，但其他命令的识别度非常低。如果你打招呼，它会变成你是谁。？

有趣的是，在从通过 pico2wave 工具创建的 wav 文件中提取单词时，使用文本到语音工具 pico2wave 创建的音频文件被非常有效地识别，准确率为 80%。

Here is the example pockesphinx code:

#include <pocketsphinx.h>


int
main(int argc, char *argv[])
{
    ps_decoder_t *ps;
    cmd_ln_t *config;
    FILE *fh;
    char const *hyp, *uttid;
    int16 buf[512];
    int rv;
    int32 score;

    config = cmd_ln_init(NULL, ps_args(), TRUE,
                 "-hmm", MODELDIR "/en-us/en-us",
                 "-lm", MODELDIR "/en-us/en-us.lm.bin",
                 "-dict", MODELDIR "/en-us/cmudict-en-us.dict",
                 NULL);
    if (config == NULL) {
    fprintf(stderr, "Failed to create config object, see log for details\n");
    return -1;
    }

    ps = ps_init(config);
    if (ps == NULL) {
    fprintf(stderr, "Failed to create recognizer, see log for details\n");
    return -1;
    }

    fh = fopen("goforward.raw", "rb");
    if (fh == NULL) {
    fprintf(stderr, "Unable to open input file goforward.raw\n");
    return -1;
    }

    rv = ps_start_utt(ps);

    while (!feof(fh)) {
    size_t nsamp;
    nsamp = fread(buf, 2, 512, fh);
    rv = ps_process_raw(ps, buf, nsamp, FALSE, FALSE);
    }

    rv = ps_end_utt(ps);
    hyp = ps_get_hyp(ps, &score);
    printf("Recognized: %s\n", hyp);

    fclose(fh);
    ps_free(ps);
    cmd_ln_free_r(config);

    return 0;
}

and here is the pocketsphinx_continuous tool code provided by the official package from pocketsphinx:

/* -*- c-basic-offset: 4; indent-tabs-mode: nil -*- */
/* ====================================================================
 * Copyright (c) 1999-2010 Carnegie Mellon University.  All rights
 * reserved.
 *
 * Redistribution and use in source and binary forms, with or without
 * modification, are permitted provided that the following conditions
 * are met:
 *
 * 1. Redistributions of source code must retain the above copyright
 *    notice, this list of conditions and the following disclaimer. 
 *
 * 2. Redistributions in binary form must reproduce the above copyright
 *    notice, this list of conditions and the following disclaimer in
 *    the documentation and/or other materials provided with the
 *    distribution.
 *
 * This work was supported in part by funding from the Defense Advanced 
 * Research Projects Agency and the National Science Foundation of the 
 * United States of America, and the CMU Sphinx Speech Consortium.
 *
 * THIS SOFTWARE IS PROVIDED BY CARNEGIE MELLON UNIVERSITY ``AS IS'' AND 
 * ANY EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, 
 * THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
 * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL CARNEGIE MELLON UNIVERSITY
 * NOR ITS EMPLOYEES BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
 * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT 
 * LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, 
 * DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY 
 * THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT 
 * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE 
 * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *
 * ====================================================================
 *
 */
/*
 * continuous.c - Simple pocketsphinx command-line application to test
 *                both continuous listening/silence filtering from microphone
 *                and continuous file transcription.
 */

/*
 * This is a simple example of pocketsphinx application that uses continuous listening
 * with silence filtering to automatically segment a continuous stream of audio input
 * into utterances that are then decoded.
 * 
 * Remarks:
 *   - Each utterance is ended when a silence segment of at least 1 sec is recognized.
 *   - Single-threaded implementation for portability.
 *   - Uses audio library; can be replaced with an equivalent custom library.
 */

#include <stdio.h>
#include <string.h>
#include <assert.h>

#if !defined(_WIN32_WCE)
#include <signal.h>
#include <setjmp.h>
#endif
#if defined(WIN32) && !defined(GNUWINCE)
#include <time.h>
#else
#include <sys/types.h>
#include <sys/time.h>
#endif

#include <sphinxbase/err.h>
#include <sphinxbase/ad.h>

#include "pocketsphinx.h"

static const arg_t cont_args_def[] = {
    POCKETSPHINX_OPTIONS,
    /* Argument file. */
    {"-argfile",
     ARG_STRING,
     NULL,
     "Argument file giving extra arguments."},
    {"-adcdev",
     ARG_STRING,
     NULL,
     "Name of audio device to use for input."},
    {"-infile",
     ARG_STRING,
     NULL,
     "Audio file to transcribe."},
    {"-time",
     ARG_BOOLEAN,
     "no",
     "Print word times in file transcription."},
    CMDLN_EMPTY_OPTION
};

static ps_decoder_t *ps;
static cmd_ln_t *config = cmd_ln_init(NULL, ps_args(), TRUE,
                                     "-hmm", "/home/bsnayak/Trainguard_MT2/pocketsphinx/model9/hmm/trainguard/",
                                     "-jsgf",  "/home/bsnayak/Trainguard_MT2/pocketsphinx/model9/lm2/trainguardmt_adv_2.jsgf",
                                     "-dict",  "/home/bsnayak/Trainguard_MT2/pocketsphinx/model9/dict/trainguard.dic",
                                     NULL);




static FILE *rawfd;

static void
print_word_times(int32 start)
{
    ps_seg_t *iter = ps_seg_iter(ps, NULL);
    while (iter != NULL) {
        int32 sf, ef, pprob;
        float conf;

        ps_seg_frames(iter, &sf, &ef);
        pprob = ps_seg_prob(iter, NULL, NULL, NULL);
        conf = logmath_exp(ps_get_logmath(ps), pprob);
        printf("%s %f %f %f\n", ps_seg_word(iter), (sf + start) / 100.0,
               (ef + start) / 100.0, conf);
        iter = ps_seg_next(iter);
    }
}

/*
 * Continuous recognition from a file
 */
static void
recognize_from_file()
{

    int16 adbuf[4096];

    const char *hyp;
    const char *uttid;

    int32 k;
    uint8 cur_vad_state, vad_state;

    char waveheader[44];
    if ((rawfd = fopen(cmd_ln_str_r(config, "-infile"), "rb")) == NULL) {
        E_FATAL_SYSTEM("Failed to open file '%s' for reading",
                       cmd_ln_str_r(config, "-infile"));
    }

    //skip wav header
    fread(waveheader, 1, 44, rawfd);
    cur_vad_state = 0;
    ps_start_utt(ps, NULL);
    while ((k = fread(adbuf, sizeof(int16), 4096, rawfd)) > 0) {
        ps_process_raw(ps, adbuf, k, FALSE, FALSE);
        vad_state = ps_get_vad_state(ps);
        if (cur_vad_state && !vad_state) {
            //speech->silence transition,
            //time to end utterance and start new one
            ps_end_utt(ps);
            hyp = ps_get_hyp(ps, NULL, &uttid);
            printf("%s: %s\n", uttid, hyp);
            fflush(stdout);
            ps_start_utt(ps, NULL);
        }
        cur_vad_state = vad_state;
    }
    ps_end_utt(ps);
    hyp = ps_get_hyp(ps, NULL, &uttid);
    printf("%s: %s\n", uttid, hyp);
    fflush(stdout);

    fclose(rawfd);
}

/* Sleep for specified msec */
static void
sleep_msec(int32 ms)
{
#if (defined(WIN32) && !defined(GNUWINCE)) || defined(_WIN32_WCE)
    Sleep(ms);
#else
    /* ------------------- Unix ------------------ */
    struct timeval tmo;

    tmo.tv_sec = 0;
    tmo.tv_usec = ms * 1000;

    select(0, NULL, NULL, NULL, &tmo);
#endif
}

/*
 * Main utterance processing loop:
 *     for (;;) {
 *     start utterance and wait for speech to process
 *     decoding till end-of-utterance silence will be detected
 *     print utterance result;
 *     }
 */
static void
recognize_from_microphone()
{
    ad_rec_t *ad;
    int16 adbuf[4096];
    uint8 cur_vad_state, vad_state;
    int32 k;
    char const *hyp;
    char const *uttid;

    if ((ad = ad_open_dev(cmd_ln_str_r(config, "-adcdev"),
                          (int) cmd_ln_float32_r(config,
                                                 "-samprate"))) == NULL)
        E_FATAL("Failed to open audio device\n");
    if (ad_start_rec(ad) < 0)
        E_FATAL("Failed to start recording\n");

    if (ps_start_utt(ps, NULL) < 0)
        E_FATAL("Failed to start utterance\n");
    cur_vad_state = 0;
    /* Indicate listening for next utterance */
    printf("READY....\n");
    fflush(stdout);
    fflush(stderr);
    for (;;) {
        if ((k = ad_read(ad, adbuf, 4096)) < 0)
            E_FATAL("Failed to read audio\n");
        sleep_msec(100);
        ps_process_raw(ps, adbuf, k, FALSE, FALSE);
        vad_state = ps_get_vad_state(ps);
        if (vad_state && !cur_vad_state) {
            //silence -> speech transition,
            // let user know that he is heard
            printf("Listening...\n");
            fflush(stdout);
        }
        if (!vad_state && cur_vad_state) {
            //speech -> silence transition, 
            //time to start new utterance
            ps_end_utt(ps);
            hyp = ps_get_hyp(ps, NULL, &uttid);
            printf("%s: %s\n", uttid, hyp);
            fflush(stdout);
            //Exit if the first word spoken was GOODBYE
            if (hyp && (strcmp(hyp, "good bye") == 0))
                break;
            if (ps_start_utt(ps, NULL) < 0)
                E_FATAL("Failed to start utterance\n");
            /* Indicate listening for next utterance */
            printf("READY....\n");
            fflush(stdout);
            fflush(stderr);
        }
        cur_vad_state = vad_state;
    }
    ad_close(ad);
}

static jmp_buf jbuf;
static void
sighandler(int signo)
{
    longjmp(jbuf, 1);
}

int
main(int argc, char *argv[])
{
    char const *cfg;
/*
    config = cmd_ln_parse_r(NULL, cont_args_def, argc, argv, TRUE);

    ///* Handle argument file as -argfile. */
  /*  if (config && (cfg = cmd_ln_str_r(config, "-argfile")) != NULL) {
        config = cmd_ln_parse_file_r(config, cont_args_def, cfg, FALSE);
    }
    if (config == NULL)
        return 1;

    ps_default_search_args(config);
    ps = ps_init(config);
    if (ps == NULL)
        return 1;
*/


if (config == NULL)
return 1;
ps = ps_init(config);
if (ps == NULL)
return 1;

    E_INFO("%s COMPILED ON: %s, AT: %s\n\n", argv[0], __DATE__, __TIME__);

    if (cmd_ln_str_r(config, "-infile") != NULL) {
        recognize_from_file();
    }
    else {

        /* Make sure we exit cleanly (needed for profiling among other things) */
        /* Signals seem to be broken in arm-wince-pe. */
#if !defined(GNUWINCE) && !defined(_WIN32_WCE) && !defined(__SYMBIAN32__)
        signal(SIGINT, &sighandler);
#endif

        if (setjmp(jbuf) == 0) {
            recognize_from_microphone();
        }
    }

    ps_free(ps);
    return 0;
}

/** Silvio Moioli: Windows CE/Mobile entry point added. */
#if defined(_WIN32_WCE)
#pragma comment(linker,"/entry:mainWCRTStartup")
#include <windows.h>

//Windows Mobile has the Unicode main only
int
wmain(int32 argc, wchar_t * wargv[])
{
    char **argv;
    size_t wlen;
    size_t len;
    int i;

    argv = malloc(argc * sizeof(char *));
    for (i = 0; i < argc; i++) {
        wlen = lstrlenW(wargv[i]);
        len = wcstombs(NULL, wargv[i], wlen);
        argv[i] = malloc(len + 1);
        wcstombs(argv[i], wargv[i], wlen);
    }

    //assuming ASCII parameters
    return main(argc, argv);
}
#endif

我必须做什么才能让它与命令一起工作？即使有一点发音错误或口音差异，也能更有效地被识别。

最佳答案

这是为那些可能也有同样问题的人准备的，我回答我自己的问题的原因是关于 pocketsphinx 语音识别库的讨论很少，因此很难学习或使用，因为几乎没有社区活跃。官方网站没有提供易于理解的指南，我发现官方文档比只希望针对 pocketsphinx 库构建他/她的应用程序的开发人员的指南更受研究限制。

因此，如果您遇到过使用默认语言模型和词典成功识别语音的问题，但您想要效率和准确性，那么您必须创建自己的语言模型和词典，或者您可能想添加一些新的口音默认语言模型。

您所要做的就是创建一个示例语言语料库，其中包含文本文件中的单词或句子。然后使用 Sphinx lmtool 从中创建语言模型(lm 文件)和字典(dic 文件)。

下一步是不要在编译过程中提供默认的语言模型和字典，而应该提供这个新的 lm 和 dic 文件参数。

就是这样，它会以 100% 的准确度非常快速地识别单词。这是整个过程的链接:http://ghatage.com/tech/2012/12/13/Make-Pocketsphinx-recognize-new-words/

关于c - pocketsphinx 无法有效识别通过麦克风录制的单词(命令)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47510908/

文章推荐： html - 如何将内容缩放到屏幕宽度

文章推荐： javascript - 获取#document-fragment 的 innerHTML 而不是 textContent

文章推荐： css - 如何解决闪烁的 Font Awesome 图标？

Android 录制，结果出现音频视频同步问题
我正在尝试解决 A/V 同步问题。视频将比音频延迟 1 秒。 (请看我下面的注释) 来自 Android 媒体框架部分，我可以延迟音频时间戳让它与视频同步，我应该从哪里开始？是音频源吗？ MPEG4
网页关闭时的 SignalR 录制
我正在使用带有 SignalR 的 MassTransit 请求和响应。该网站向创建文件的 Windows 服务发出请求。创建文件后，Windows 服务会将响应消息发送回网站。该网站将打开该文件并使
audio - 录制/创建音频文件之前最小化loadFile
我正在尝试创建一个允许用户发出一些声音的应用程序，然后以回放方式使用它。我想让我的应用程序播放用户将记录的.wav文件。由于不断出现错误，我在弄清楚如何编写此代码时遇到了麻烦。 ====
javascript - 录制/共享屏幕时不在网页上显示视频
有没有办法禁止网页上视频的屏幕共享？例如，当您尝试录制或屏幕共享(例如通过 Skype)Netflix 视频时，它仅显示黑屏并且没有音频。我的问题是，他们是如何实现的？我只能想到JavaScrip
javascript - HTML5 录制
我正在尝试使用 html5 .getUserMedia 录制视频，然后在不上传到服务器的情况下再次播放。我尝试了很多教程，我通过使用 canvas 绘制 webp 图像然后使用 Whammy.js 转
java - 在线屏幕捕获/录制
我想为我的网站的用户实现屏幕录制功能。这将适用于便士拍卖风格的网站，以便用户可以记录他们的出价，并在拍卖出现问题时提供证据。这是在线录音机的演示。 http://www.screentoaster.
iOS 屏幕捕获/录制
所以在我的应用程序中，我尝试使用屏幕截图“记录”屏幕。我必须将这些单独的帧作为图像，因为它们稍后会在服务器上进行修改和组合。增加这种复杂性的是，它是在使用 Cocos2D 的慢节奏游戏中。我目前截屏的
video - ffmpeg:录制/捕获流并同时进行场景检测
是否可以使用单个 ffmpeg 命令同时捕获(记录)RTSP 流和捕获场景变化事件？我几乎可以做我想做的事: ffmpeg -i 'rtsp://mystream' \ -map 0:v -map 0
iphone - 录制 iPhone 应用程序中创建的声音
我是 Objective-c 和 iPhone 编程新手，但我正在开发一个自学应用程序。我一直在尝试弄清楚如何在 iPhone 上录制声音。 Apple 提供了使用 AVAudioRecorder 从
javascript - 录制/流式传输音频并在通话时播放 |网站
我无法写任何东西来允许这样做，但我希望有人能指出我找到可以做到这一点的代码的正确方向。我擅长 HTML 和 CSS，对 JS 非常陌生。我需要的是能够使用我的麦克风在单页网站上讲话，并将其流回。这样
java - 如何捕获(录制)进入我的浏览器的视频流？
想象一下您在浏览器中观看体育赛事直播。这意味着您收到了视频流，对吗？我需要记录这个流并保存到磁盘。问题是我不知道从哪里开始。我对编程并不陌生，但在视频直播方面有一些经验。我看到这个问题分为以下几个部分
file - 录制 Jmeter 脚本时出现访问被拒绝问题
我在开始录制时遇到文件未找到异常。此外，我无法在 JMeter 可安装文件夹中找到 RootCA 证书。最佳答案根据 TestRecording210 JMeter Wiki 页面当用户(您在其下
javascript - 一键实现更多功能 = JavaScript 录制
我有这个源代码可以在浏览器中录制音频。 Record.js 调用另一个脚本提供录音并将其保存到服务器。 index.html record.js //starts by click on butt
Android:录制 SoundPool 输出
我允许用户按下按钮以通过 SoundPool 播放声音。是否可以录制 SoundPool 正在播放的任何内容，以便用户可以录制一系列声音？最佳答案实际上不可能捕捉到播放的声音。我也有同样的愿望，但
ios - 录制 iOS 模拟器产生空文件
我正在尝试使用 xcrun simctl io booted recordVideo recording.mov 录制我的 iOS 11.4 模拟器的屏幕。这将创建一个具有该名称的文件，但不幸的是该文
javascript - 如何使用 MediaStream 录制
好的，我将尝试尽可能清楚地说明我的问题，但我很困惑，所以如果我没有传达信息，请告诉我。我正在尝试使用 getUserMedia 来使用网络摄像头，然后使用这个 http://www.w3.org/T
javascript - 录制 html5 音频
是否可以使用 html5 录制声音？我已经下载了最新的 canary 版本的 chrome 并使用以下代码: navigator.getUserMedia = navigator.webkitGetU
android - 录制 Android 音频输出
很多人都在问这个，似乎没有人有答案，所以我也没有。某些应用程序如何提供记录android系统音频输出的功能？我发现的所有内容都是在 1432 个不同站点上的相同教程，您可以在其中记录 MIC 输入。
vim - 如何取消已经开始的 vim 录制，以免覆盖我之前录制的宏？
不小心撞到了qq而不是 @q ，我的 vim 现在正在记录到寄存器 q . 如果我输入 q再次，它将覆盖以前录制的宏。有没有办法取消录制以免覆盖之前的宏或恢复之前的宏而不从头开始重新录制？最佳
twilio - 录制 Twilio 调用，包括拨号动词前的播放动词
当我们接到电话时，我们会向来电者播放提示，内容类似于“我们可能会出于质量和培训目的记录通话”。我们为响应来电而发送的 TWiML 如下所示。 http://domain.tld/may_r

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - pocketsphinx 无法有效识别通过麦克风录制的单词(命令)