gpt4 book ai didi

android - Android 上的实时通话转录

转载 作者:塔克拉玛干 更新时间:2023-11-02 22:31:45 25 4
gpt4 key购买 nike

我是一名患有听力障碍的 Android 开发人员,我目前正在探索使用 Android 中的语音识别器 API 将语音转为文本应用程序的选项。隐藏式字幕电话和 Innocaption 在我的祖国不可用。潜在的应用可能类似于电话中的字幕。

https://developer.android.com/reference/android/speech/SpeechRecognizer.html

API 用于捕获语音命令,而不是用于实时实时转录。我什至可以将它作为一项服务来实现,但我需要在它交付一个结果或部分结果后不断地重新启动它,这在 session 设置中是不可行的(服务重新启动时单词会丢失)。

请注意,我不需要此应用的 100% 准确度。许多听障人士发现了解一些谈话背景有助于他们理解。所以我实际上不需要评论这将如何不准确。

有没有办法在连续模式下实现语音识别器?我可以创建一个 TextView ,当从服务返回新文本时,它会不断 self 更新。如果这个 API 不是我应该看的,有什么建议吗?我测试了 CMUSphinx,但发现它过于依赖短语/句子 block ,不太可能适用于我想要的那种应用程序。

最佳答案

我是一名失聪的软件开发人员,所以我可以插话。我一直在关注 Speech-To-Text API 的最新技术,这些 API 现在已经“足够好”,可以提供无需运算符(operator)的中继/字幕服务在安静的环境中与使用电话的人进行某些类型的电话交谈。例如,我使用 Apple Siri 实时转录 (iOS 8) 获得了 98% 的配偶语音转录准确率。

我能够通过将声音从一部手机传送到我按下麦克风按钮(弹出式键盘)的第二部 iPhone,成功地为电话对话添加字幕,准确率约为 95%,每分钟 250 字(比 Sprint Captioned Telephone 和 Hamilton Captioned Telephone 快),至少到 1 分钟截止时间为止。

因此,我宣布基于计算机的语音识别对于与家人(您在安静环境中经常打电话的类型)的电话通话是实用的,您至少可以指导他们转移到安静的地方以使字幕正常工作(准确率 >95%)。自从 iOS 8 发布以来,我们真的需要这个,所以我们不需要依赖运营商或字幕电话。 Sprint Captioned 电话在快速讲话时严重滞后,而 Apple Siri 保持同步,因此我可以使用我的 jerryriged 双 iOS 设备 Apple Siri“实时字幕电话”设置进行更自然的电话交谈。

一些手机以更高清晰度的方式传输音频,因此它在两部 iPhone 之间运行良好(iPhone 扬声器通过管道连接到另一部 iPhone 的 Siri,以 iOS8 连续模式运行)。这是假设您使用的是 G.722.2 (AMR-WB),就像在支持高清音频电话标准的同一运营商上运行两部 iPhone 时一样。当通过 Siri 传输时,它的效果非常好——大致与在电话前进行一样好,对于相同的人声(假设另一端在安静的环境中对着电话说话)。

Google 和 Apple 需要向辅助应用程序开放他们的语音转文本 API,因为无话务员的电话转录现在终于实用了,至少在给家人打电话时(声音好并且被训练在安静的环境中)接电话)。在这种情况下,也需要取消连续识别时间限制。

关于android - Android 上的实时通话转录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25800377/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com