- r - 以节省内存的方式增长 data.frame
- ruby-on-rails - ruby/ruby on rails 内存泄漏检测
- android - 无法解析导入android.support.v7.app
- UNIX 域套接字与共享内存(映射文件)
我正在寻找一种算法来确定实时音频输入是否与 144 个给定(且截然不同的)音素对中的一个相匹配。
最好是完成工作的最低级别。
我正在为 iPhone/iPad 开发激进/实验性的音乐训练软件。
我的音乐系统包括 12 个辅音音素和 12 个元音音素,演示了 here .这使得 144 个可能的音素对。学生必须根据视觉刺激唱出正确的音素对“laa duu bee”等。
我对此做了很多研究,看起来我最好的选择可能是使用 iOS Sphinx 包装器之一(iPhone App › Add voice recognition? 是我找到的最好的信息来源)。但是,我看不出我将如何调整这样一个包,任何有使用这些技术经验的人都可以给出所需步骤的基本概述吗?
用户是否需要培训?我本以为不会,因为与包含数千个单词的完整语言模型和更大、更微妙的音素库相比,这是一项如此基本的任务。然而,让用户训练 12 个音素对是可以接受的(不理想):{ consonant1+vowel1, consonant2+vowel2, ..., consonant12+vowel12 }。完整的 144 太累了。
有没有更简单的方法?我觉得使用功能齐全的连续语音识别器就像使用大锤来破解坚果一样。使用能够解决问题的最少技术会优雅得多。
所以我真的在寻找任何识别音素的开源软件。
PS 我需要一个几乎实时运行的解决方案。所以即使他们在唱这个音符,首先它会闪烁以说明它拾取了所唱的音素对,然后它会发光以说明他们是否在唱正确的音高
最佳答案
如果您正在寻找手机级开源识别器,那么我会推荐HTK .该工具以 HTK Book 的形式提供了非常好的文档。它还包含一整章专门用于构建电话级别的实时语音识别器。从您上面的问题陈述来看,在我看来您可能能够将该示例重新工作到您自己的解决方案中。可能的陷阱:
既然要做手机级别的识别器,那么训练手机模型所需的数据量会非常大。此外,您的训练数据库应该在电话分布方面保持平衡。
构建独立于说话人的系统需要来自多个说话人的数据。还有很多。
由于这是开源的,您还应该查看许可信息以了解有关发布代码的任何其他详细信息。一个很好的选择是使用手机上的录音机,然后将录制的波形通过数据通道发送到服务器进行识别,这与谷歌所做的非常相似。
关于iOS/C : Algorithm to detect phonemes,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6387062/
我正在使用 xamarin 表单开发移动应用程序,是否可以检测 Android 中的滑动手势以进行屏幕截图或单击锁定屏幕或主屏幕? 如果可以通过 Objective C/swift/java 实现,那
我刚刚涉足计算机视觉领域,并试图揭开它的各种复杂性的神秘面纱。我正在尝试使用冲浪特征检测器来增强卡尔曼滤波器。但是我不明白在使用冲浪特征在检测到的帧上构造单应性和有界矩形后如何调用和使用卡尔曼方法。在
问题 我正在尝试使用 opencv2 来检测静止图像中的 PlayStation Move 运动 Controller 。为了增加球体和背景之间的对比度,我决定修改输入图像以自动缩放每个 channe
我正在制作一个 android 应用程序,它可以从从视频中捕获的图像帧中检测对象。 openCV中的示例应用只有实时检测的例子。 附加信息:-我正在使用 Haar 分类器 截至目前,我正在将捕获的帧存
我在我的测试应用程序中成功实现了 OpenCV 平方检测示例,但现在需要过滤输出,因为它非常困惑 - 还是我的代码错误? 我对论文的四个角点感兴趣,以减少偏斜(如 that)和进一步处理......
在我的应用程序中,我想对 UIImage 使用人脸检测,所以我使用库中的 CoreImage 构建(我知道 Vision Library 也是最新的人脸检测库。但它仅支持 ios 11.0 及以上)。
我的 Linux 3.0/glibc 2.13 应用程序因以下形式的错误而停止: *** glibc detected *** MYAPP: double free or corruption (fa
我正在尝试运行一个基本程序来检测用户是否安装了 window.ethereum。当我运行我的程序时,我得到“@metamask/detect-provider:无法检测到 window.ethereu
我正在使用 Haarcascades 检测人脸和眼睛。我的问题是,它像眼睛一样包围了许多盒子。我的语法是 face_cascade = cv2.CascadeClassifier('haarcasca
我如何检测用户在对话中点击“消息”? 如果 MessageViewController Controller 很紧凑并且用户向上滑动我如何检测到它? 我试过这些代表,但它不能正常工作 override
我在对象检测中使用 Microsoft 自定义视觉服务来提取需要的对象。我想做一个回归测试来比较结果。但是,我找不到一个地方可以导出带有用户通过 GUI 定义的边界框的训练图片。 模型训练是在 Mic
我对 chrome 进行了扩展。当我浏览到 https 下的网站时,我的链接仍在 http 下,我收到:“该站点使用 SSL,但 Google Chrome 检测到页面上存在高风险不安全内容或站点证书
我用的是JetBrains的Gogland工具来学习go语言,我安装成功了,但是打不开,现将报错列如下,有没有人遇到过这个问题?如能解决,将不胜感激。 错误: Java 运行时环境检测到 fatal
我想在 R 中评估和比较我的社区检测算法的结果。我的算法不允许重叠,并且有一些节点没有被处理。例如,对于 Zachary 空手道俱乐部,我有 1 个节点未处理。我找到了很多指标(NMI、ARI、Mod
是否有任何好的开源引擎来检测文本使用的语言,也许是概率度量?我可以在本地运行并且不查询 Google 或 Bing 的一个?我想在大约 1500 万页的 OCR 文本中检测每个页面的语言。 并非所有文
我正在开发一款 2D 游戏,其中包含高速射弹,这些射弹会撞击高速(并且可能旋转得非常快)的多边形目标对象。我一直在试验和寻找适合我的强大碰撞检测算法。 如果快速旋转不是一个因素(即 0 或慢速旋转),
我正在制作一款平台游戏,其中有玩家和一些 Prop 。为了检查碰撞,我使用了 matterjs collisionactive 函数: this.matter.world.on("collisiona
我已经习惯于使用矩形进行碰撞检测,现在我有点难住了。我正在处理类似菱形的形状,在过去的几个小时里,我一直在试图找出如何检查碰撞。 我尝试检查第一个对象的四个点是否在第二个对象的点内,但这只是一个框(我
最初,两个半径为 R1 和 R2 的非接触球体处于静止状态。 然后在时间 = 0 时分别给它们两个加速度 a1 和 a2。查明他们是否会接触。它们的初始位置分别表示为 (x1,y1,z1) 和 (x2
我目前正在学习使用 LWJGL 和 OpenGL 的 ThinMatrix 3d 游戏开发教程。我正在尝试在我的游戏中实现碰撞检测。我已经准备好检测 AABB 与 AABB 碰撞的代码,但似乎无法弄清
我是一名优秀的程序员,十分优秀!