python - 有没有一种快速的方法可以在音频文件中找到(不一定能识别)人类语音？-6ren

python - 有没有一种快速的方法可以在音频文件中找到(不一定能识别)人类语音？

转载作者：太空狗更新时间：2023-10-29 20:16:48

25

4

我想写一个自动同步未同步字幕的程序。我想到的解决方案之一是以某种算法的方式找到人类语音并根据它调整字幕。我发现的 API(Google Speech API、Yandex SpeechKit)与服务器一起工作(这对我来说不是很方便)并且(可能)做了很多不必要的工作来确定到底说了什么，而我只需要知道某些东西已经据说。

换句话说，我想给它音频文件并得到这样的东西:

[(00:12, 00:26), (01:45, 01:49) ... , (25:21, 26:11)]

是否有一种解决方案(最好是在 python 中)只查找人类语音并在本地机器上运行？

最佳答案

您尝试执行的操作的技术术语称为 Voice Activity Detection (VAD) .有一个名为 SPEAR 的 python 库这样做(除其他外)。

关于python - 有没有一种快速的方法可以在音频文件中找到(不一定能识别)人类语音？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32594316/

25

4

0

文章推荐： python - PyQt5 和异步 : yield from never finishes

文章推荐： c++ - 初始化静态变量时出现语法错误

文章推荐： c# - 在 Roslyn 制作的编译中包含嵌入式资源

文章推荐： c++ - 会发生左值到右值的转换吗？

nlp - (人类)文档的语言
有没有一种方法(程序、库)可以大致了解文档是用哪种语言编写的？我有一堆混合语言的文本文档(~500K)，需要导入支持 i18n 的 CMS (Drupal).. 我不需要完美的匹配，只需要一些猜测。
java - Java数字，“人类”舍入
Closed. This question needs details or clarity。它当前不接受答案。
html - 在一个网页上使用多种自然(人类)语言的最佳实践？
使用 UTF-8 编码。 (Multiple languages in one HTML page)。跨不同浏览器(包括 iPad 上的 Safari)在单个网页上正确显示多种人类语言的最佳做法是什
c++ - 使用两种(人类)语言的应用程序
我有一个完全可用的代码，它是为 Windows 编写的，是用 Visual Studio 构建的。我想做的是为该软件添加另一种语言。我的想法是在窗口角落放置两个标志(一个英语和一个德语)，并在用户点
Lua 字节码到 Lua 人类 "readable"
我刚刚得到一个脚本，我想对其进行一些更改，我正在寻找某人为我开发一份自由职业，以使我将提供的加载字符串可读以进行编辑。 Lua代码是这样的: ------------------------- ENG
algorithm - 高级(口语/人类)语言翻译项目？
有没有不是简单逐字翻译的语言翻译项目？一个具有先进算法/设计的？目前主流和流行的翻译软件，例如谷歌翻译，似乎是查找一个词或一组连续的词，然后将其直接翻译成不知何故确定为最佳匹配的内容。但是因为它不是
java - Twilio - 人类/非人类/机器人检测(IfMachine 参数)
基于 Twilio 的人类/非人类检测 - 我正在尝试通过如下所示的代码来检测调用是否被人类或机器人接听 HashMap params = new HashMap(); params.put("Fro
php - 我是否破坏了以下处理 3 种(人类)语言的 php 数组中的任何 "php good practice"？
这是目前(不确定)我能想到的处理多语言网站的最佳方式，它不涉及 gettext、zend_translate 或任何 php 插件或框架。我认为它非常简单:我有 3 种语言，我将它们的“内容”写在不

首页

博学

6Ren·AI

商城

python - 有没有一种快速的方法可以在音频文件中找到(不一定能识别)人类语音？