android - Android 上的实时通话转录-6ren

android - Android 上的实时通话转录

转载作者：塔克拉玛干更新时间：2023-11-02 22:31:45

25

4

我是一名患有听力障碍的 Android 开发人员，我目前正在探索使用 Android 中的语音识别器 API 将语音转为文本应用程序的选项。隐藏式字幕电话和 Innocaption 在我的祖国不可用。潜在的应用可能类似于电话中的字幕。

https://developer.android.com/reference/android/speech/SpeechRecognizer.html

API 用于捕获语音命令，而不是用于实时实时转录。我什至可以将它作为一项服务来实现，但我需要在它交付一个结果或部分结果后不断地重新启动它，这在 session 设置中是不可行的(服务重新启动时单词会丢失)。

请注意，我不需要此应用的 100% 准确度。许多听障人士发现了解一些谈话背景有助于他们理解。所以我实际上不需要评论这将如何不准确。

有没有办法在连续模式下实现语音识别器？我可以创建一个 TextView ，当从服务返回新文本时，它会不断 self 更新。如果这个 API 不是我应该看的，有什么建议吗？我测试了 CMUSphinx，但发现它过于依赖短语/句子 block ，不太可能适用于我想要的那种应用程序。

最佳答案

我是一名失聪的软件开发人员，所以我可以插话。我一直在关注 Speech-To-Text API 的最新技术，这些 API 现在已经“足够好”，可以提供无需运算符(operator)的中继/字幕服务在安静的环境中与使用电话的人进行某些类型的电话交谈。例如，我使用 Apple Siri 实时转录 (iOS 8) 获得了 98% 的配偶语音转录准确率。

我能够通过将声音从一部手机传送到我按下麦克风按钮(弹出式键盘)的第二部 iPhone，成功地为电话对话添加字幕，准确率约为 95%，每分钟 250 字(比 Sprint Captioned Telephone 和 Hamilton Captioned Telephone 快)，至少到 1 分钟截止时间为止。

因此，我宣布基于计算机的语音识别对于与家人(您在安静环境中经常打电话的类型)的电话通话是实用的，您至少可以指导他们转移到安静的地方以使字幕正常工作(准确率 >95%)。自从 iOS 8 发布以来，我们真的需要这个，所以我们不需要依赖运营商或字幕电话。 Sprint Captioned 电话在快速讲话时严重滞后，而 Apple Siri 保持同步，因此我可以使用我的 jerryriged 双 iOS 设备 Apple Siri“实时字幕电话”设置进行更自然的电话交谈。

一些手机以更高清晰度的方式传输音频，因此它在两部 iPhone 之间运行良好(iPhone 扬声器通过管道连接到另一部 iPhone 的 Siri，以 iOS8 连续模式运行)。这是假设您使用的是 G.722.2 (AMR-WB)，就像在支持高清音频电话标准的同一运营商上运行两部 iPhone 时一样。当通过 Siri 传输时，它的效果非常好——大致与在电话前进行一样好，对于相同的人声(假设另一端在安静的环境中对着电话说话)。

Google 和 Apple 需要向辅助应用程序开放他们的语音转文本 API，因为无话务员的电话转录现在终于实用了，至少在给家人打电话时(声音好并且被训练在安静的环境中)接电话)。在这种情况下，也需要取消连续识别时间限制。

关于android - Android 上的实时通话转录，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25800377/

25

4

0

文章推荐： java - 您可以在 Android 中打开多个文件吗？

文章推荐： android - 具有静态方法的类在 Android 中存在多长时间？

java - 使用 Java 转录
有谁知道是否有可能将俄语输入转录为拉丁语？有什么框架支持吗？我正在搜索字符集，但它不支持这种情况提前致谢。最佳答案 Map translit = new HashMap<>(); stati
java - Solr:支持希腊语的音译/转录
我已经为一些包含希腊字母的字段建立了索引(例如Στεφαν)。就像在谷歌中一样，当我搜索 Stefan 时，我想找到这些文档。是否支持希腊语单词的音译/转录？到目前为止，我已经尝试过 solr.AS
python - pyspeech (python) - 转录 mp3 文件？
我想使用 pyspeech API 转录 mp3(语音到文本)。不过，我不知道这是否可行。是吗？怎么办？最佳答案 pyspeech 似乎只是常规 Windows 语音 API 的 python 接
tensorflow - 使用 Tensorflow 进行 IPA(国际音标)转录
我正在考虑设计一个软件平台，以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示，大约有 1,000 种语言从未被各自语言群体之外的人研究过。我的目标是利用 TensorFlow 创建一个平
azure - Azure 转录 JSON 文件的 VTT 输出
我抬头发现了这个 - https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/captioning-conc
swift - Swift 中的 DNA 到 RNA 转录
我正在尝试在 Swift 中返回给定 DNA 链(字符串)的 RNA 互补序列。基本上，如果 DNA 有一个“T”，我会用“U”代替它。我的代码是: func toRNA(DNA: String)
linux - 通过 AWS CLI 进行 AWS 转录
我可以像这样通过 AWS CLI 使用 AWS S3 服务: aws s3 cp FileToUpload.txt s3://MyBucketName/file.txt 如何使用 AWS 转录服务？通
ios - iOS 应用程序上的 SFSpeechRecognizer(Siri 转录)超时错误
在我的 iOS 应用程序中，我尝试使用 iOS 10 的最新功能 Speech API 来转录预先录制的音频。多个来源，包括 documentation已声明语音 API(更具体地说是 SFSpee
Azure Batch 转录 : Error when downloading the recording URI. 状态代码:冲突(下载失败)
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
Azure Batch 转录 : Error when downloading the recording URI. 状态代码:冲突(下载失败)
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
speech-to-text - 使用 Bing Speech API(语音到文本)转录 MP3 音频文件
我有一个 MP3 格式的长录音(小时以上)。以下是我设法从 FFMPEG 获得的关于音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk

首页

博学

6Ren·AI

商城

android - Android 上的实时通话转录