audio - 给定音频源和准确转录的任何语言的时间戳音频-6ren

audio - 给定音频源和准确转录的任何语言的时间戳音频

转载作者：行者123 更新时间：2023-12-02 05:06:41

25

4

我希望为音频文件中的每个单词获取大致准确的时间戳。我还有原始文本与音频文件一起使用，可以用作各种交叉引用源。这类似于“音频挖掘”，我认为这是您只有输入音频的地方，而在这里我有音频和文本。

理想情况下，我希望使用开源软件来执行此操作，并且愿意接受大多数语言作为输入(例如，英语、法语、德语、西类牙语，最好是俄语和普通话)。

我什至会接受只能匹配各种单词的时间戳的解决方案(例如，如果转录不完全准确)。然后将输出文本与原始文本交叉引用以帮助重新对齐内容会更容易。

最佳答案

我在语言学研究中就是这样做的。我使用一个名为 ELAN 的程序，我只是注意到它们的版本 (4.5) 比我目前在 Mac 上安装的版本更新。该软件旨在帮助使用聋人语言，因此它支持视频和音频帧，并允许您准确对齐转录。我使用的版本是 3.9，该版本用于对单词进行某种自动分词，我认为这是您想要做的。不过，我在最新版本中没有看到该功能，也许经过一些挖掘它仍然存在。

Segmenting audio and video 来自 this page .

当然，如果您需要更早的版本，您始终可以使用 ELAN 3.9。 ELAN 可以在 Mac、Linux 和 Windows 上运行，因为它是基于 Java 的(我记得)。这是 ELAN 的链接.还有其他语言注释软件。另一个非常好，但很难学。它叫做PRAAT .

希望对您有所帮助。如果我没有完全正确地理解您的需求，请告诉我，我会看看是否可以为您完善我的答案。干杯!

关于audio - 给定音频源和准确转录的任何语言的时间戳音频，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10544082/

25

4

0

文章推荐： image - 在 Umbraco 中使用 Razor 测试图像裁剪是否存在

文章推荐： perl - 如何在 Perl 中将指数数格式更改为浮点格式

文章推荐： python - 使用正则表达式查找并替换每个匹配的任意数量的元素

文章推荐： image - dijit.form.button 与程序化的 img src

audio -
我有一个小型WordPress网站。我做了很多音频工作，并且试图在WordPress的博客条目中发布HTML5音频剪辑。由于某种原因，它不起作用。它可能与我在WordPress网站上使用的样式有关，但
html5-audio - Web Audio API 和
我在让 html5 标签与 Web Audio API .createMediaElementSource() 方法配合使用时遇到问题。请参阅下面的 jsFiddle/代码。任何想法这里出了什么问题将
audio - 如何在 OS X 上将 audio.m4a 转换为 audio.amr？
我尝试安装ffmpeg $ brew install ffmpeg 并运行 ffmpeg $ ffmpeg -i audio.m4a -ar 8000 -ab 12.2k audio.amr 我收到以
audio - Web Audio API中的FFT数据对应什么？
我已使用Web Audio API中的getByteFrequencyData方法使用了来自Analyzer节点的FFT数据来创建频谱可视化器，如下所示: 在这种情况下，我有256个数据箱。这个数字到
audio - 无法为Wwise安装GVR Audio SDK
Google VR刚刚为wwise制作了一个VR插件: https://developers.google.com/vr/audio/wwise-getting-started https://git
audio - 如何使用Web Audio API在特定位置将音频记录添加到现有音频记录中？
如何将新记录追加到现有记录中的选定位置或特定位置？例如，有一个5秒的录制，我想再次录制，但是将此录制追加到先前录制的特定位置，说出来:在3秒钟的录制长度之后追加此录制。最佳答案您可以使用getC
audio - omxplayer : audio out of sync
我们基于 Raspberry Pi 和 omxplayer 构建简单的网络控制视频播放器。我们遇到的问题是任何使用 ffmpeg 转码的文件都有音频不同步。在 iPad 上制作并直接上传到 Pi 的视
audio - Web Audio API如何影响游戏开发？
我正在尝试了解Web Audio API的引入对基于Web的游戏的开发意味着什么。 Flash游戏当然可以执行一些相当高级的音频处理，对于简单的游戏，音频元素也许就足够了。但是Web Audio AP
audio - 如何在Simple Audio Engine中循环播放声音效果
我已经在如何用简单的音频引擎循环播放声音效果方面进行了广泛的搜索，但是在cocos2d论坛上除了hello with looping sfx之外，它并没有取得太大进展，因为它存在多个问题。如何在Sim
c++ - Decoding an MKA audio file into raw data(MKA Audio to raw audio data)
我的任务是打开一个扩展名为 mka 的现有音频文件(Matroska 容器)并提取原始音频数据。 This示例仅显示了从 mp2 文件中提取原始数据的示例。我不知道如何使用 mka 容器执行此操作。我
audio - Lync 2013 SDK-当 “Join meeting audio from”设置设置为 “Do not join audio”时，加入 session 并连接AVModality
我是Lync 2013 SDK的新手(现在已经使用了几周)，并且能够弄清除此以外的大部分东西…… 当我加入 session 时(使用ConversationManager.JoinConference
audio - 操作方法 : The Most Simple Audio Engine?
我好奇。如何实现有史以来最简单的音频引擎？我有一些类似使用默认音频设备的音频数据流的想法。玩了很多 RtAudio，我认为如果可以放弃一些功能，这是可能的。有人知道从哪里开始吗？最佳答案我会这样做
audio - 调整频率范围-Web Audio API分析器
我一直在玩网络音频API。我正在使用getByteFrequencyData来显示频带的分贝数据，但是我想更改显示频带的整个范围，因为现在重要的音频都被压缩为一对频带。有关如何执行此操作的任何想法
audio - 使用NAudio接收状态更改的 Audio Session 回调
我想在音频 session 以NAudio开始和结束时接收回调。以下代码正在运行: private void SetupMediaSessionCallbacks() {
audio - Web Audio Api Record音频节点
我可以用trackPosition，offset以某种方式记录并输出到WAV。当在浏览器中播放时，它工作正常，我只想输出到WAV文件。 for (var i = 0; i 0) {
audio - Google Resonance Audio SDK的露天使用
在哪种情况下，我们可以不将Google Resonance Audio SDK与耳机配合使用，而应将其与真实的扬声器配合使用(例如，安装在360°的音圈设置中)？还是所有算法都不适用于真实的扬声器输
audio - Web Audio API-如何使用AudioPannerNode进行常规LR平移
AudioPannerNode是一个处理节点，用于在三维空间中定位/空间化传入的音频流。有没有一种方法可以将其用于常规LR平移，请记住它使用3D笛卡尔坐标系与侦听器结合使用，该侦听器的位置和方向与平移
audio - 如果.ogg文件在列表中的第一位，Safari将不会播放
我有一个带有两个源的音频对象，分别为M4A和OGG格式。代码如下: 然后，我可以调用document.getElementById('audio1')。play()并开始播放。它适用于所有
audio - Web Audio API 注意事项
我正在尝试构建一个允许将时间/节奏(可能是音高)输入到 Web 音频振荡器节点的界面。实际上创建了一个“步进音序器”。为 Web Audio API 振荡器节点触发预定 NoteOn 的最佳方式是什
core-audio - Core Audio 中的亚毫秒级延迟
是否可以使用 Core Audio 以亚毫秒级延迟播放声音？我尝试过使用具有不同大小和缓冲区数量的 AudioQueues，也尝试过使用 AudioUnits，但我一直无法将延迟降低到 30 毫秒以

首页

博学

6Ren·AI

商城

audio - 给定音频源和准确转录的任何语言的时间戳音频