gpt4 book ai didi

speech-to-text - 如何在 VOSK 中实现多语言模型?

转载 作者:行者123 更新时间:2023-12-05 05:47:56 63 4
gpt4 key购买 nike

我想知道我们如何使用 Vosk 库在应用程序中实现多语言处理。我想制作一个支持波斯语、库尔德语和英语等多语言的应用程序。我想使用的编程语言是带有 Spring 框架的 Java。我知道我们可以使用 Model model = new Model("path to model") 实现口语,但我们如何为多个模型实现它?

最佳答案

如何创建和运行两个或更多识别器? (您要检测的每种语言一个。)

通过 AcceptWaveform 将相同的音频缓冲区传递给每个识别器。您的应用程序逻辑可以从两个识别器接收结果。我想你偶尔会有跨语言的同音异义词(例如英语“nine”和德语“nein”)来处理你想忽略一个匹配项并使用另一个匹配项的地方。但也许选择一个所需的启发式方法对您的应用来说并不难。

显然,运行多个识别器在 CPU/内存使用方面效率低下,但对于您的目的来说也许是可以接受的。进一步的改进可能是在检测到足够多的一种语言语音以预测说话者将继续使用该语言后,关闭不需要的识别器。

如果 Vosk/Kaldi 对于一个进程中的多个识别器实例不是线程安全的,您可以运行多个进程来隔离识别器,并通过某种进程间通信来管理识别器。

关于speech-to-text - 如何在 VOSK 中实现多语言模型?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/70909261/

63 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com