- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我是一名患有听力障碍的 Android 开发人员,我目前正在探索使用 Android 中的语音识别器 API 将语音转为文本应用程序的选项。隐藏式字幕电话和 Innocaption 在我的祖国不可用。潜在的应用可能类似于电话中的字幕。
https://developer.android.com/reference/android/speech/SpeechRecognizer.html
API 用于捕获语音命令,而不是用于实时实时转录。我什至可以将它作为一项服务来实现,但我需要在它交付一个结果或部分结果后不断地重新启动它,这在 session 设置中是不可行的(服务重新启动时单词会丢失)。
请注意,我不需要此应用的 100% 准确度。许多听障人士发现了解一些谈话背景有助于他们理解。所以我实际上不需要评论这将如何不准确。
有没有办法在连续模式下实现语音识别器?我可以创建一个 TextView ,当从服务返回新文本时,它会不断 self 更新。如果这个 API 不是我应该看的,有什么建议吗?我测试了 CMUSphinx,但发现它过于依赖短语/句子 block ,不太可能适用于我想要的那种应用程序。
最佳答案
我是一名失聪的软件开发人员,所以我可以插话。我一直在关注 Speech-To-Text API 的最新技术,这些 API 现在已经“足够好”,可以提供无需运算符(operator)的中继/字幕服务在安静的环境中与使用电话的人进行某些类型的电话交谈。例如,我使用 Apple Siri 实时转录 (iOS 8) 获得了 98% 的配偶语音转录准确率。
我能够通过将声音从一部手机传送到我按下麦克风按钮(弹出式键盘)的第二部 iPhone,成功地为电话对话添加字幕,准确率约为 95%,每分钟 250 字(比 Sprint Captioned Telephone 和 Hamilton Captioned Telephone 快),至少到 1 分钟截止时间为止。
因此,我宣布基于计算机的语音识别对于与家人(您在安静环境中经常打电话的类型)的电话通话是实用的,您至少可以指导他们转移到安静的地方以使字幕正常工作(准确率 >95%)。自从 iOS 8 发布以来,我们真的需要这个,所以我们不需要依赖运营商或字幕电话。 Sprint Captioned 电话在快速讲话时严重滞后,而 Apple Siri 保持同步,因此我可以使用我的 jerryriged 双 iOS 设备 Apple Siri“实时字幕电话”设置进行更自然的电话交谈。
一些手机以更高清晰度的方式传输音频,因此它在两部 iPhone 之间运行良好(iPhone 扬声器通过管道连接到另一部 iPhone 的 Siri,以 iOS8 连续模式运行)。这是假设您使用的是 G.722.2 (AMR-WB),就像在支持高清音频电话标准的同一运营商上运行两部 iPhone 时一样。当通过 Siri 传输时,它的效果非常好——大致与在电话前进行一样好,对于相同的人声(假设另一端在安静的环境中对着电话说话)。
Google 和 Apple 需要向辅助应用程序开放他们的语音转文本 API,因为无话务员的电话转录现在终于实用了,至少在给家人打电话时(声音好并且被训练在安静的环境中)接电话)。在这种情况下,也需要取消连续识别时间限制。
关于android - Android 上的实时通话转录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25800377/
有谁知道是否有可能将俄语输入转录为拉丁语? 有什么框架支持吗?我正在搜索字符集,但它不支持这种情况 提前致谢。 最佳答案 Map translit = new HashMap<>(); stati
我已经为一些包含希腊字母的字段建立了索引(例如Στεφαν)。就像在谷歌中一样,当我搜索 Stefan 时,我想找到这些文档。是否支持希腊语单词的音译/转录? 到目前为止,我已经尝试过 solr.AS
我想使用 pyspeech API 转录 mp3(语音到文本)。不过,我不知道这是否可行。 是吗?怎么办? 最佳答案 pyspeech 似乎只是常规 Windows 语音 API 的 python 接
我正在考虑设计一个软件平台,以帮助语言学家和人类学家研究以前未研究过的语言。统计数据显示,大约有 1,000 种语言从未被各自语言群体之外的人研究过。 我的目标是利用 TensorFlow 创建一个平
我抬头发现了这个 - https://learn.microsoft.com/en-us/azure/cognitive-services/speech-service/captioning-conc
我正在尝试在 Swift 中返回给定 DNA 链(字符串)的 RNA 互补序列。基本上,如果 DNA 有一个“T”,我会用“U”代替它。 我的代码是: func toRNA(DNA: String)
我可以像这样通过 AWS CLI 使用 AWS S3 服务: aws s3 cp FileToUpload.txt s3://MyBucketName/file.txt 如何使用 AWS 转录服务?通
在我的 iOS 应用程序中,我尝试使用 iOS 10 的最新功能 Speech API 来转录预先录制的音频。 多个来源,包括 documentation已声明语音 API(更具体地说是 SFSpee
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我正在尝试使用 Microsoft Azure 的批量转录。关注官方documentation我想应该是这样的: 我将音频发送到服务 (POST) 获取结果。 (使用帖子的参数获取) 但我什么也没得到
我有一个 MP3 格式的长录音(小时以上)。以下是我设法从 FFMPEG 获得的关于音频文件的信息: [mp3 @ 000001fe666da320] Skipping 0 bytes of junk
我是一名优秀的程序员,十分优秀!