- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我想知道我们如何使用 Vosk 库在应用程序中实现多语言处理。我想制作一个支持波斯语、库尔德语和英语等多语言的应用程序。我想使用的编程语言是带有 Spring 框架的 Java。我知道我们可以使用 Model model = new Model("path to model")
实现口语,但我们如何为多个模型实现它?
最佳答案
如何创建和运行两个或更多识别器? (您要检测的每种语言一个。)
通过 AcceptWaveform
将相同的音频缓冲区传递给每个识别器。您的应用程序逻辑可以从两个识别器接收结果。我想你偶尔会有跨语言的同音异义词(例如英语“nine”和德语“nein”)来处理你想忽略一个匹配项并使用另一个匹配项的地方。但也许选择一个所需的启发式方法对您的应用来说并不难。
显然,运行多个识别器在 CPU/内存使用方面效率低下,但对于您的目的来说也许是可以接受的。进一步的改进可能是在检测到足够多的一种语言语音以预测说话者将继续使用该语言后,关闭不需要的识别器。
如果 Vosk/Kaldi 对于一个进程中的多个识别器实例不是线程安全的,您可以运行多个进程来隔离识别器,并通过某种进程间通信来管理识别器。
关于speech-to-text - 如何在 VOSK 中实现多语言模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70909261/
我想知道我们如何使用 Vosk 库在应用程序中实现多语言处理。我想制作一个支持波斯语、库尔德语和英语等多语言的应用程序。我想使用的编程语言是带有 Spring 框架的 Java。我知道我们可以使用 M
因此,Vosk-api 是一个出色的离线语音识别器,具有出色的支持,但在本文发布时(2020 年 8 月 14 日)文档非常差(或巧妙隐藏) 问题是:是否有任何类型的 替代品?谷歌语音识别器 功能,允
我是一名优秀的程序员,十分优秀!