gpt4 book ai didi

javascript - Web Audio Api 与 Web Speech Api 集成 - 将扬声器/声卡输出流式传输到语音识别 api

转载 作者:行者123 更新时间:2023-11-28 03:18:31 26 4
gpt4 key购买 nike

问题:

理想情况下,我会从声卡获取流输出(由正在播放的 mp4 文件生成)并将其发送到麦克风和扬声器。我知道我可以使用“getUserMedia”和“createChannelSplitter”(在 Web Audio Api 中)来获取和分割(基于 Audacity 分析,原始信号为立体声)用户媒体为 2 个输出,这给我带来了 2 个问题。

  1. getUserMedia 只能从麦克风获取流输入不是来自声卡(根据我读到的内容)
  2. 流输出只能记录/发送到缓冲区,而不能发送直接到麦克风(根据我读到的内容)

这是正确的吗?

可能的解决方法 - 停滞:

用户很可能会打开耳机麦克风,但我想到的一种解决方法是切换到设备上的内置麦克风并捕获扬声器发出的声音,然后切换回耳机以获取用户输入。但是,我还没有找到一种方法可以在内置麦克风和耳机麦克风之间进行切换,而无需每次都询问用户。

有没有我没有找到的方法可以做到这一点?

您还建议哪些其他解决方案?

项目说明:

我正在创建一个用 htmljavascript 编写的西类牙语练习程序/网站。将播放 mp4,语音识别 API 将在屏幕上显示其所说内容(西类牙语),并将其翻译成英语,以便用户听到、看到并理解说话者所说的内容mp4。然后,用户将使用耳机麦克风接听 mp4 人员(通常内置麦克风无法提供足够好的语音识别质量 - 取决于设备 - 因此需要使用耳机)。

使用内置麦克风的解决方法的流程图

mp4->soundcard-> Web Audio Api -> channel 1 -> user's ears

channel 2 -> microphone input-> Web Speech Api-> html->text onscreen

跳过麦克风输入的理想情况流程图

mp4->soundcard-> Web Audio Api -> channel 1 -> user's ears

channel 2-> Web Speech Api-> html->text onscreen -> user's eyes

另一个潜在的解决方法:

我想避免必须手动从每个 mp4 中剥离 mp3,然后尝试同步它们,以便在 mp4 人说话时进行语音识别。我读到我可以通过语音识别 API 运行 mp3。

最佳答案

简短的回答是,目前(12/19)没有办法用我拥有的工具和预算在这个平台上实现这一目标。我选择了一种费力的方法来做到这一点,即设置单独的 div,并在该人在计时器上讲话时显示文本 block 。我仍然会使用语音 API 来捕获用户所说的内容,以便程序可以运行正确的视频作为响应。

关于javascript - Web Audio Api 与 Web Speech Api 集成 - 将扬声器/声卡输出流式传输到语音识别 api,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59416573/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com