gpt4 book ai didi

javascript - 如何使用来自 chrome 的 tabCapture API 的音频流并转换为文本

转载 作者:行者123 更新时间:2023-12-02 22:36:40 25 4
gpt4 key购买 nike

我正在尝试为正在选项卡上播放的任何音频生成字幕...为此,我正在构建一个 chrome 扩展程序,它能够从当前打开的选项卡捕获音频并实时从音频流!

经过一些研究,我发现 chrome 有一个 tabCapture API,可以从当前选项卡捕获音频流......但问题是我如何不断转换我从中获取的流将 API 转换为文本!

chrome.tabCapture.capture({audio: true}, (stream) => {
let startTabId;
chrome.tabs.query({active:true, currentWindow: true}, (tabs) => startTabId = tabs[0].id)
const liveStream = stream;
const audioCtx = new AudioContext();
const source = audioCtx.createMediaStreamSource(stream);
let mediaRecorder = new Recorder(source);

这将如何记录音频 ... stream 对象应该包含音频信息 ... 我不确定如何使用 stream 对象能够将其转换为文本!

最佳答案

您要的是语音识别引擎。没有直接的方法来实现此功能,尤其是在浏览器上下文中。鉴于目前的技术水平,甚至还不清楚这是否可行。

语音识别是一个广泛的持续研究领域;您在这里尝试做的不是已解决的问题。连谷歌这样的行业大佬也没有解决这个问题:Youtube has a feature which can automatically generate captions for videos , 但是 the resulting captions are awful .他们实现此功能取决于大量的机器学习工作;您不太可能在 Javascript 中实现这种质量的任何东西,以在 Web 浏览器中实时运行。

关于javascript - 如何使用来自 chrome 的 tabCapture API 的音频流并转换为文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55428883/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com