voice - 使用 libxtract 或其他小型 C、C++ 库实现 VAD 功能-6ren

voice - 使用 libxtract 或其他小型 C、C++ 库实现 VAD 功能

转载作者：行者123 更新时间：2023-12-02 01:58:04

28

4

我尝试在 Android 上创建说话人识别系统。目前我正在使用 libxtract 从帧和 libsvm 计算 MFCC 向量进行分类。

您是否知道如何使用我可以在 NDK 下编译的 libxtract 或其他小型 C、C++ 库来检测帧中的语音(VAD 语音事件检测)？

最佳答案

稳健 VAD是一个不平凡的问题，并且有many approaches .

您采用的方法取决于以下因素:

您的应用程序上下文的细节以及您的应用程序将如何使用
您可以对要处理的音频做出什么样的假设(您可以预期哪些类型的背景噪音或非语音音频)
您的系统是否需要实时运行

一种简单的方法可能涉及为每个音频帧采用“特征包”(例如 f0、噪音、前 10 个部分的幅度)后降噪，并训练机器学习算法(SVM 就足够了)多种语音和非语音示例。

但是，最好不要将 VAD 视为一个简单的帧级音频分类问题，而是考虑音频随时间变化的方面。这将使您更好地估计语音段的开始和结束位置。为此，您可以使用 envelope follower或 spectral flux .您可以在这些包络值上设置高阈值和低阈值，并使用它们(例如)来控制音频流上的门限。

关于voice - 使用 libxtract 或其他小型 C、C++ 库实现 VAD 功能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18737332/

28

4

0

文章推荐： background - 更改 Xmlspy 编辑器背景颜色

文章推荐： java - 关于Java ExecutorService newFixedThreadPool的几个问题

文章推荐： java - mappedBy 和 CascadeType.ALL 有什么区别？

文章推荐： jsp - 使用 jSTL 动态加载下拉列表

c - VAD 从听模式切换到说模式
我正在尝试使用树莓派和自定义电路将我的四线公寓蜂鸣器变成 VOIP 电话。问题是不支持双向通信。我可以在听，也可以在说。我想使用带星号的标准 SIP 设置，但在树莓派的声音输出上执行 VAD，以便在音
audio - javame:使用麦克风录音时是否可以禁用AGC/VAD？
我们正在开发一个应用程序，该应用程序从麦克风获取音频并进行一些分析。在分析过程中，我们发现AGC是在麦克风子系统上实现的。我也听说过使用了VAD。在将音频(PCM)交付给应用程序之前，是否还要进行其
audio - OpenSMILE:使用语音事件检测器(VAD)
我是OpenSMILE的新手，我想使用下载时提供的语音 Activity 检测器。但是，当我按照教程进行操作并使用以下命令行启动openSMILE时: SMILExtract -C config/v
iphone - 任何简单的 VAD 实现？
我正在寻找一些用于 VAD(语音事件检测)的 C/C++ 代码。基本上，我的应用程序正在从设备中读取 PCM 帧。我想知道用户何时说话。我不是在寻找任何语音识别算法，而只是用于语音检测。我想知道用
mp3 - 使用 pymad、pcm、vad 等检测口语音频文件中的停顿
首先，我将大致说明我正在尝试做的事情并寻求建议。然后我会解释我目前的做法，并为我目前的问题寻求答案。问题我有一个人说话的 MP3 文件。我想把它分成大致对应于一个句子或短语的片段。 (我会手动完成
audio - Google 的 WebRTC VAD 算法(特别是 "aggressiveness")
我知道 Google 的 WebRTC VAD 算法使用高斯混合模型 (GMM)，但是我的数学知识很弱，所以我不太明白这意味着什么。说它是一种基于统计的机器学习模型是否正确，对于 VAD 来说，它是一
java - 使用 LIUM 进行语音 Activity 检测 (VAD/SAR)
我编写了一个 shell 脚本来训练多个 GMM 进行某些类型的语音 Activity 和静音。因此我使用了 LIUM 说话人分类工具包。我想用它来进行语音 Activity 检测。以下脚本使用 Sp
voice - 使用 libxtract 或其他小型 C、C++ 库实现 VAD 功能
我尝试在 Android 上创建说话人识别系统。目前我正在使用 libxtract 从帧和 libsvm 计算 MFCC 向量进行分类。您是否知道如何使用我可以在 NDK 下编译的 libxtrac
linux - E : Unable to locate package virtuoso-vad-cartridges while installing Virtuoso
我正在尝试安装 openlink vituoso 在 ubuntu 16.04 中插入以下命令， sudo apt-get install virtuoso-vad-{isparql,ods,cart
c++ - webRTC : How to apply webRTC's VAD on audio through samples obtained from WAV file
目前，我正在解析 wav 文件并在 std::vector sample 中存储样本 .现在，我想对这些数据应用 VAD(语音事件检测)以找出语音的“区域”，更具体地说是单词的开始和结束。解析的 w

首页

博学

6Ren·AI

商城

voice - 使用 libxtract 或其他小型 C、C++ 库实现 VAD 功能