python - 音频信号在字级边界处分离-6ren

python - 音频信号在字级边界处分离

转载作者：行者123 更新时间：2023-12-02 23:01:21

32

4

我正在使用webrtcvad和pydub处理音频文件。任何片段的分割都是通过静默句子来实现的。
有什么方法可以在字级边界条件下进行拆分？ (在每个口语之后)？
如果librosa / ffmpeg / pydub具有这样的功能，是否可以在每个人声上进行分割？但是在分割之后，我需要人声的开始和结束时间与人声部分在原始文件中的位置完全一样。
通过ffmpeg进行拆分的一种简单解决方案或方法也定义为:
https://gist.github.com/vadimkantorov/00bf4fbe4323360722e3d2220cc2915e
但这也是通过静音进行的拆分，并且对于每个填充数或帧大小，拆分是不同的。我正在尝试按声乐分开。
例如，我手动完成了此操作，原始文件，拆分词及其在json中的时间位置位于以下链接下方提供的文件夹中:
www.mediafire.com/file/u4ojdjezmw4vocb/attached_problem.tar.gz

最佳答案

分隔单词超出音频范围，需要某种智能。手动执行操作很容易，因为我们很聪明，可以准确地知道我们要寻找的内容，但是自动化过程却很困难，因为正如您已经注意到的那样，保持沉默不是(不仅但并非总是)单词定界符。
在音频级别，我们只能采用一种解决方案，这既需要分析信号的幅度，又需要添加一些时间机制。例如， Protools 提供了一个很好的工具 Strip Silence ，可根据信号的幅度自动剪切音频区域。它始终将素材保持在时间轴上的原始位置，并且自然每个区域都知道自己的持续时间。除了以dB为单位的阈值之外，为了防止创建过多的区域，它还在时域中提供了几个有用的参数:所创建区域的最小长度，剪切之前的延迟(该延迟是从振幅通过的点计算的)低于阈值)，则是在重新打开门之前的反向延迟(该延迟是从幅度超过阈值的点开始向后计算的)。
对于您来说，这可能是一个很好的起点。实现这样的系统可能不会百分百成功，但是如果根据扬声器的设置进行了适当的调整，您可以获得很好的比率。即使它不是完美的，也将大大减少对手工工作的需求。

关于python - 音频信号在字级边界处分离，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64153590/

32

4

0

文章推荐： audio - Windows 波形函数 - 8 和 16 以外的位深度的 WAVEOUTCAPS

文章推荐： elasticsearch - 在Elasticsearch中基于字符串的分数

文章推荐： powershell - VSC 在运行 powershell 脚本时抛出错误

C 信号。信号()与信号集()？
所以我目前正在研究 C 中的 POSIX 线程和信号编程。我的讲师使用 sigset(int sigNumber, void* signalHandlerFUnction) 因为他的笔记不是世界上最好
c++ - while 和 for 循环中的 vector push_back 返回 SIGABRT 信号(信号 6)(C++)
我正在制作一个 C++ 游戏，它要求我将 36 个数字初始化为一个 vector 。你不能用初始化列表初始化一个 vector ，所以我创建了一个 while 循环来更快地初始化它。我想让它把每个数字
python-2.7 - 尝试通过 Popen() 使用 Python 发送 EOF 信号(Ctrl+D)信号
我正在尝试让 Python 发送 EOF信号 (Ctrl+D) 通过 Popen() .不幸的是，我找不到任何关于 Popen() 的引用资料。 *nix 类系统上的信号。这里有谁知道如何发送 EOF
python-2.7 - 尝试通过 Popen() 使用 Python 发送 EOF 信号(Ctrl+D)信号
我正在尝试让 Python 发送 EOF信号 (Ctrl+D) 通过 Popen() .不幸的是，我找不到任何关于 Popen() 的引用资料。 *nix 类系统上的信号。这里有谁知道如何发送 EOF
用于处理简单用户通知系统的 Django 信号
我正在学习编码并拥有一个实时的 Django 项目来保持我的动力。在我的 Django 应用程序中，用户留下评论，而其他人则回复所述评论。每次用户刷新他们的主页时，我都会计算他们是否收到了关于他们之
登录中的 Django 信号
登录功能中的django信号有什么用？用户已添加到请求 session 表中。那么 Django auth.login 函数中对信号的最后一行调用是什么？ @sensitive_post_param
用户创建时的 Django 信号
我已经将用户的创建与函数 create_user_profile 连接起来，当我创建我的用户时出现问题，我似乎连接的函数被调用了两次，而 UserProfile 试图被创建两次，女巫触发了一个错误列
插槽断开后的 Qt 信号
我有一个来自生产者对象处理的硬件的实时数据流。这会连接到一个消费者，该消费者在自己的线程中处理它以保持 gui 响应。 mainwindow::startProcessing(){ QObje
iphone - 如何正确处理异常情况(信号？)
在我的 iPhone 应用程序中，我想提供某种应用程序终止处理程序，该处理程序将在应用程序终止之前执行一些最终工作(删除一些敏感数据)。我想尽可能多地处理终止情况: 1) 用户终止应用 2) 设备电
Angular 信号 - 有什么优势？
我试图了解使用 Angular Signals 的优势。许多解释中都给出了计数示例，但我试图理解的是，与我下面通过变量 myCount 和 myCountDouble 所做的方式相比，以这种方式使用信
Django 信号 dispatch_uid
我对 dispatch_uid 的用法有疑问为信号。目前，我通过简单地添加 if not instance.order_reference 来防止信号的多次使用。 .我现在想知道是否dispatch
Django 信号。如何创建唯一的调度ID？
有时 django 中的信号会被触发两次。在文档中，它说创建(唯一)dispatch_uid 的一个好方法是模块的路径或名称[1] 或任何可哈希对象的 ID[2]。今天我尝试了这个: import
捕获 CTRL-\信号
我有一个用户定义的 shell 项目，我试图在其中实现 cat 命令，但允许用户单击 CTRL-/ 以显示下一个 x 行。我对信号很陌生，所以我认为我在某个地方有一些语法错误...... 主要...
使用定时器处理 C 信号
http://codepad.org/rHIKj7Cd (不是全部代码) 我想要完成的任务是， parent 在共享内存中写入一些内容，然后 child 做出相应的 react ，并每五秒写回一些内容
c++ - 信号/槽连接总数？
有没有一种方法可以找到 Qt 应用程序中信号/槽连接的总数有人向我推荐 Gamma 射线，但有没有更简单的解决方案？最佳答案检查 Qt::UniqueConnection . This is a
C++:信号/槽库中的线程安全
我正在实现一个信号/插槽框架，并且到了我希望它是线程安全的地步。我已经从 Boost 邮件列表中获得了很多支持，但由于这与 boost 无关，我将在这里提出我的未决问题。什么时候信号/槽实现(或任何
c++ - 信号 - 循环内的槽连接
在我的代码中，我在循环内创建相同类型的新对象并将信号连接到对象槽。这是我的试用版。 A * a; QList aList; int aCounter = 0; while(aCounter aLis
c++ - 如何在windows平台上使用c++信号
我知道 UNIX 上的 C 有 signal() 可以在某些操作后调用某些函数。我在 Windows 上需要它。我发现了，它存在什么 from here .但是我不明白如何正确使用它。我在 UNIX
c++ - 信号、槽和其他类
目前我正在将控制台 C++ 项目移植到 Qt。关于移植，我有一些问题。现在我的项目调整如下我有一个派生自 QWidget 的 Form 类，它使用派生自 QObject 的其他类。现在请告诉我我是否
c++ - 信号/槽基类多继承
在我的 Qt 多线程程序中，我想实现一个基于 QObject 的基类，以便从它派生的每个类都可以使用它的信号和槽(例如抛出错误)。我实现了 MyQObject : public QObject{..

首页

博学

6Ren·AI

商城

python - 音频信号在字级边界处分离