- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我尝试在 Android 上创建说话人识别系统。目前我正在使用 libxtract 从帧和 libsvm 计算 MFCC 向量进行分类。
您是否知道如何使用我可以在 NDK 下编译的 libxtract 或其他小型 C、C++ 库来检测帧中的语音(VAD 语音事件检测)?
最佳答案
稳健 VAD是一个不平凡的问题,并且有many approaches .
您采用的方法取决于以下因素:
一种简单的方法可能涉及为每个音频帧采用“特征包”(例如 f0、噪音、前 10 个部分的幅度)后降噪,并训练机器学习算法(SVM 就足够了)多种语音和非语音示例。
但是,最好不要将 VAD 视为一个简单的帧级音频分类问题,而是考虑音频随时间变化的方面。这将使您更好地估计语音段的开始和结束位置。为此,您可以使用 envelope follower或 spectral flux .您可以在这些包络值上设置高阈值和低阈值,并使用它们(例如)来控制音频流上的门限。
关于voice - 使用 libxtract 或其他小型 C、C++ 库实现 VAD 功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18737332/
我正在尝试使用树莓派和自定义电路将我的四线公寓蜂鸣器变成 VOIP 电话。问题是不支持双向通信。我可以在听,也可以在说。我想使用带星号的标准 SIP 设置,但在树莓派的声音输出上执行 VAD,以便在音
我们正在开发一个应用程序,该应用程序从麦克风获取音频并进行一些分析。在分析过程中,我们发现AGC是在麦克风子系统上实现的。我也听说过使用了VAD。 在将音频(PCM)交付给应用程序之前,是否还要进行其
我是OpenSMILE的新手,我想使用下载时提供的语音 Activity 检测器。 但是,当我按照教程进行操作并使用以下命令行启动openSMILE时: SMILExtract -C config/v
我正在寻找一些用于 VAD(语音事件检测)的 C/C++ 代码。 基本上,我的应用程序正在从设备中读取 PCM 帧。我想知道用户何时说话。我不是在寻找任何语音识别算法,而只是用于语音检测。 我想知道用
首先,我将大致说明我正在尝试做的事情并寻求建议。然后我会解释我目前的做法,并为我目前的问题寻求答案。 问题 我有一个人说话的 MP3 文件。我想把它分成大致对应于一个句子或短语的片段。 (我会手动完成
我知道 Google 的 WebRTC VAD 算法使用高斯混合模型 (GMM),但是我的数学知识很弱,所以我不太明白这意味着什么。说它是一种基于统计的机器学习模型是否正确,对于 VAD 来说,它是一
我编写了一个 shell 脚本来训练多个 GMM 进行某些类型的语音 Activity 和静音。因此我使用了 LIUM 说话人分类工具包。我想用它来进行语音 Activity 检测。以下脚本使用 Sp
我尝试在 Android 上创建说话人识别系统。目前我正在使用 libxtract 从帧和 libsvm 计算 MFCC 向量进行分类。 您是否知道如何使用我可以在 NDK 下编译的 libxtrac
我正在尝试安装 openlink vituoso 在 ubuntu 16.04 中插入以下命令, sudo apt-get install virtuoso-vad-{isparql,ods,cart
目前,我正在解析 wav 文件并在 std::vector sample 中存储样本 .现在,我想对这些数据应用 VAD(语音事件检测)以找出语音的“区域”,更具体地说是单词的开始和结束。 解析的 w
我是一名优秀的程序员,十分优秀!