- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在做一个项目来转录讲座视频。我们目前只是使用人工进行转录,因为我们认为转录比编辑 ASR 更容易,尤其是对于技术主题(不是我的问题的重点,尽管我希望对此有任何意见)。根据我们的经验,我们发现在转录大约 10 分钟后,我们会感到焦虑或失去注意力。因此,我们一直根据讲座内容中的逻辑中断将视频分成约 5-7 分钟的 block 。然而,我们发现讲座开始时(至少对于我们正在试运行的类(class)而言)通常比后面有更多的讨论,这通常有时间让学生相互讨论一个问题。我在想我们可以进行信号处理来确定整个视频中的粗略讲话量。这个想法是将视频分成包含大致相同数量的演讲的片段,而不是相同长度的片段。
我对此进行了一些研究,但是对于我正在尝试做的事情来说,一切似乎都有些矫枉过正。这门类(class)的视频,虽然我们想概括一下,但基本上只包含讲师,偶尔会有一些反馈和遥远的学生声音。那么我是否可以简单地查看波形并粗略地使用包含超过某个阈值的音频的点来确定讲师何时说话?还是真的需要 ML 方法来量化讲师的演讲?
希望这是有道理的,如有必要,我可以澄清任何事情。
感谢您的帮助,因为我没有信号处理方面的经验。
最佳答案
尽管有一些机器学习方法非常擅长将语音与其他声音区分开来,但您的应用程序似乎并不需要这种准确性。与您提出的类似的基于级别的简单方法应该足以让您估算说话时间。
基于电平的声音检测
目标
给定一个音频样本,将具有大量声音的部分与包含背景噪声的部分区分开来。然后可以很容易地使用它来估计声音文件中的语音量。
方法概述
我们将首先将其转换为滑动窗口 RMS,而不是查看信号中的原始电平。这给出了音频样本的任何给定点有多少音频能量的简单测量。通过分析 RMS 信号,我们可以自动确定区分背景噪声和语音的阈值。
工作示例
我将在 MATLAB 中处理这个示例,因为它使数学变得容易,并让我可以创建插图。
源音频
我正在使用肯尼迪总统的“我们选择去月球”演讲。我正在使用来自维基百科的音频文件,只是提取左声道。
imported = importdata('moon.ogg');
audio = imported.data(:,1);
plot(audio);
plot((1:length(audio))/imported.fs, audio);
title('Raw Audio Signal');
xlabel('Time (s)');
audioRMS = [];
for i = 1:imported.fs:(length(audio)-imported.fs)
audioRMS = [audioRMS; rms(audio(i:(i+imported.fs)))];
end
plot(1:length(audioRMS), audioRMS);
title('Audio RMS Signal');
xlabel('Time (s)');
histogram(audioRMS, 50);
>> sum(audioRMS > 3*min(audioRMS))
ans =
972
for i = 1:length(speech)
if(~speech(i))
clippedAudio = [clippedAudio; audio(((i-1)*imported.fs+1):i*imported.fs)];
end
end
>> sound(clippedAudio, imported.fs);
关于audio - 判断视频中说话的 'amount',我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29224038/
我对此很陌生,我在这里的论坛上检查过答案,但我没有找到任何真正可以帮助我的答案。我正在尝试播放 res/raw 文件夹中的视频。到目前为止我已经设置了这段代码: MediaPlayer mp; @Ov
我可以播放一个视频剪辑,检测视频的结尾,然后创建一个表单,然后播放另一个视频剪辑。我的问题是,表单 react 不正确,我创建了带有提交按钮和两个单选按钮可供选择的表单。我希望让用户进行选择,验证响应
首先,我必须说我在web2py讨论组中看到过类似的内容,但我不太理解。 我使用 web2py 设置了一个数据库驱动的网站,其中的条目只是 HTML 文本。其中大多数将包含 img和/或video指向相
我正在尝试在视频 View 中播放 YouTube 视频。 我将 xml 布局如下: 代码是这样的: setContentView(R.layout.webview); VideoV
我正在开发一个需要嵌入其中的 youtube 视频播放器的 android 应用程序。我成功地从 API 获得了 RTSP 视频 URL,但是当我试图在我的 android 视频 View 中加载这个
我目前正在从事一个使用 YouTube API 的网络项目。 我完全不熟悉 API。所以每一行代码都需要付出很多努力。 使用以下代码,我可以成功检索播放列表中的项目: https://www.goog
是否可以仅使用视频 ID 和 key 使用 API V3 删除 youtube 视频?我不断收到有关“必需参数:部分”丢失的错误消息。我用服务器和浏览器 api 键试了一下这是我的代码: // $yo
所以我一直坚持这个大约一个小时左右,我就是无法让它工作。到目前为止,我一直在尝试从字符串中提取整个链接,但现在我觉得只获取视频 ID 可能更容易。 RegEx 需要从以下链接样式中获取 ID/URL,
var app = angular.module('speakout', []).config( function($sceDelegateProvider) {
我正在努力从 RSS 提要中阅读音频、视频新闻。我如何确定该 rss 是用于新闻阅读器还是用于音频或视频? 这是视频源:http://feeds.cbsnews.com/CBSNewsVideo 这是
利用python反转图片/视频 准备:一张图片/一段视频 python库:pillow,moviepy 安装库 ?
我希望在用户双击视频区域时让我的视频全屏显示,而不仅仅是在他们单击控件中的小图标时。有没有办法添加事件或其他东西来控制用户点击视频时发生的情况? 谢谢! 最佳答案 按照 Musa 的建议,附
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 7年前关闭。 Improve this questi
我有一个公司培训视频加载到本地服务器上。我正在使用 HTML5 的视频播放来观看这些视频。该服务器无法访问网络,但我已加载 apache 并且端口 8080 对同一网络上的所有机器开放。 这些文件位于
我想混合来自 video.mp4 的视频(时长 1 分钟)和来自 audio.mp3 的音频(10 分钟持续时间)到一个持续时间为 1 分钟的输出文件中。来自 audio.mp3 的音频应该是从 4
关闭。这个问题需要更多 focused .它目前不接受答案。 想改进这个问题?更新问题,使其仅关注一个问题 editing this post . 8年前关闭。 Improve this questi
我正在尝试使用 peer/getUserMedia 创建一个视频 session 网络应用程序。 目前,当我将唯一 ID 发送到视频 session 时,我能够听到/看到任何加入我的 session
考虑到一段时间内的观看次数,我正在评估一种针对半自动脚本的不同方法,该脚本将对视频元数据执行操作。 简而言之,只要视频达到指标中的某个阈值,就说观看次数,它将触发某些操作。 现在要执行此操作,我将不得
我正在通过iBooks创建专门为iPad创建动态ePub电子书的网站。 它需要支持youtube视频播放,所以当我知道视频的直接路径时,我正在使用html5 标记。 有没有一种使用html5 标签嵌入
我对Android不熟悉,我想浏览youtube.com并在Webview内从网站显示视频。当前,当我尝试执行此操作时,将出现设备的浏览器,并让我使用设备浏览器浏览该站点。如果Webview不具备这种
我是一名优秀的程序员,十分优秀!