- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想标记然后提取音频文件(audio.wav)的某些片段。段的开始和结束时间由DateTimeStamp(第一列)给出,而 Action 持续时间(以毫秒为单位)(第三列)在另一个文件(注释文件(annot.csv))中给出:
DateTimeStamp Action Duration of action in milliseconds
04/16/20 21:25:36:241 A 502
04/16/20 21:25:36:317 B 2253
04/16/20 21:25:36:734 X 118
04/16/20 21:25:36:837 C 10
04/16/20 21:25:37:537 D 797
04/16/20 21:25:37:606 X 70
04/16/20 21:25:37:874 A 1506
. . .
audio.wav文件在文件annot.csv的第一个DateTimeStamp时间开始。如何使用annot.csv文件中的信息标记和提取audio.wav文件中的某个片段(例如,对应于Action X)?
最佳答案
这里的关键是计算每个指定段的开始和结束(在音频样本索引中)。
可以通过先将毫秒转换为秒,然后再乘以音频的采样率来采样索引来完成此操作。
但是总的来说,我建议在处理诸如此类的时间序列时使用Pandas datetime和timedelta功能。下面是一些实现此目的的示例代码:
import io
import pandas
import numpy
import librosa
def read_data(f, date_format):
df = pandas.read_csv(f, sep=',')
# Use proper pandas datatypes
df['Time'] = pandas.to_datetime(df['DateTimeStamp'], format=date_format)
df['Duration'] = pandas.to_timedelta(df['Duration ms'], unit='ms')
df = df.drop(columns=['DateTimeStamp', 'Duration ms'])
# Compute start and end time of each segment
# audio starts at time of first segment
first = df['Time'].iloc[0]
df['Start'] = df['Time'] - first
df['End'] = df['Start'] + df['Duration']
return df
def extract_segments(y, sr, segments):
# compute segment regions in number of samples
starts = numpy.floor(segments.Start.dt.total_seconds() * sr).astype(int)
ends = numpy.ceil(segments.End.dt.total_seconds() * sr).astype(int)
# slice the audio into segments
for start, end in zip(starts, ends):
audio_seg = y[start:end]
print('extracting audio segment:', len(audio_seg), 'samples')
## Reproducible example
data = io.StringIO("""DateTimeStamp,Action,Duration ms
04/16/20 21:25:36:241,A,502
04/16/20 21:25:36:317,B,2253
04/16/20 21:25:36:734,X,118
04/16/20 21:25:36:837,C,10
04/16/20 21:25:37:537,D,797
04/16/20 21:25:37:606,X,70
04/16/20 21:25:37:874,A,1506
""")
segments = read_data(data, date_format="%m/%d/%y %H:%M:%S:%f")
print(segments)
path = librosa.util.example_audio_file()
y, sr = librosa.load(path, sr=16000, duration=10)
extract_segments(y, sr, segments)
应该输出类似
Action Time Duration Start End
0 A 2020-04-16 21:25:36.241 00:00:00.502000 00:00:00 00:00:00.502000
1 B 2020-04-16 21:25:36.317 00:00:02.253000 00:00:00.076000 00:00:02.329000
2 X 2020-04-16 21:25:36.734 00:00:00.118000 00:00:00.493000 00:00:00.611000
3 C 2020-04-16 21:25:36.837 00:00:00.010000 00:00:00.596000 00:00:00.606000
4 D 2020-04-16 21:25:37.537 00:00:00.797000 00:00:01.296000 00:00:02.093000
5 X 2020-04-16 21:25:37.606 00:00:00.070000 00:00:01.365000 00:00:01.435000
6 A 2020-04-16 21:25:37.874 00:00:01.506000 00:00:01.633000 00:00:03.139000
extracting audio segment: 8032 samples
extracting audio segment: 36048 samples
extracting audio segment: 1888 samples
extracting audio segment: 160 samples
extracting audio segment: 12752 samples
extracting audio segment: 1120 samples
extracting audio segment: 24097 samples
关于audio - 如何使用时间戳注释标记和提取音频,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63466930/
我有一个小型WordPress网站。我做了很多音频工作,并且试图在WordPress的博客条目中发布HTML5音频剪辑。由于某种原因,它不起作用。它可能与我在WordPress网站上使用的样式有关,但
我在让 html5 标签与 Web Audio API .createMediaElementSource() 方法配合使用时遇到问题。请参阅下面的 jsFiddle/代码。任何想法这里出了什么问题将
我尝试安装ffmpeg $ brew install ffmpeg 并运行 ffmpeg $ ffmpeg -i audio.m4a -ar 8000 -ab 12.2k audio.amr 我收到以
我已使用Web Audio API中的getByteFrequencyData方法使用了来自Analyzer节点的FFT数据来创建频谱可视化器,如下所示: 在这种情况下,我有256个数据箱。这个数字到
Google VR刚刚为wwise制作了一个VR插件: https://developers.google.com/vr/audio/wwise-getting-started https://git
如何将新记录追加到现有记录中的选定位置或特定位置? 例如,有一个5秒的录制,我想再次录制,但是将此录制追加到先前录制的特定位置,说出来:在3秒钟的录制长度之后追加此录制。 最佳答案 您可以使用getC
我们基于 Raspberry Pi 和 omxplayer 构建简单的网络控制视频播放器。我们遇到的问题是任何使用 ffmpeg 转码的文件都有音频不同步。在 iPad 上制作并直接上传到 Pi 的视
我正在尝试了解Web Audio API的引入对基于Web的游戏的开发意味着什么。 Flash游戏当然可以执行一些相当高级的音频处理,对于简单的游戏,音频元素也许就足够了。但是Web Audio AP
我已经在如何用简单的音频引擎循环播放声音效果方面进行了广泛的搜索,但是在cocos2d论坛上除了hello with looping sfx之外,它并没有取得太大进展,因为它存在多个问题。如何在Sim
我的任务是打开一个扩展名为 mka 的现有音频文件(Matroska 容器)并提取原始音频数据。 This示例仅显示了从 mp2 文件中提取原始数据的示例。我不知道如何使用 mka 容器执行此操作。我
我是Lync 2013 SDK的新手(现在已经使用了几周),并且能够弄清除此以外的大部分东西…… 当我加入 session 时(使用ConversationManager.JoinConference
我好奇。如何实现有史以来最简单的音频引擎?我有一些类似使用默认音频设备的音频数据流的想法。玩了很多 RtAudio,我认为如果可以放弃一些功能,这是可能的。有人知道从哪里开始吗? 最佳答案 我会这样做
我一直在玩网络音频API。 我正在使用getByteFrequencyData来显示频带的分贝数据,但是我想更改显示频带的整个范围,因为现在重要的音频都被压缩为一对频带。 有关如何执行此操作的任何想法
我想在音频 session 以NAudio开始和结束时接收回调。以下代码正在运行: private void SetupMediaSessionCallbacks() {
我可以用trackPosition,offset以某种方式记录并输出到WAV。当在浏览器中播放时,它工作正常,我只想输出到WAV文件。 for (var i = 0; i 0) {
在哪种情况下,我们可以不将Google Resonance Audio SDK与耳机配合使用,而应将其与真实的扬声器配合使用(例如,安装在360°的音圈设置中)? 还是所有算法都不适用于真实的扬声器输
AudioPannerNode是一个处理节点,用于在三维空间中定位/空间化传入的音频流。有没有一种方法可以将其用于常规LR平移,请记住它使用3D笛卡尔坐标系与侦听器结合使用,该侦听器的位置和方向与平移
我有一个带有两个源的音频对象,分别为M4A和OGG格式。 代码如下: 然后,我可以调用document.getElementById('audio1')。play()并开始播放。 它适用于所有
我正在尝试构建一个允许将时间/节奏(可能是音高)输入到 Web 音频振荡器节点的界面。实际上创建了一个“步进音序器”。 为 Web Audio API 振荡器节点触发预定 NoteOn 的最佳方式是什
是否可以使用 Core Audio 以亚毫秒级延迟播放声音? 我尝试过使用具有不同大小和缓冲区数量的 AudioQueues,也尝试过使用 AudioUnits,但我一直无法将延迟降低到 30 毫秒以
我是一名优秀的程序员,十分优秀!