gpt4 book ai didi

ios - 用于 iPhone 语音识别的 Shazam

转载 作者:塔克拉玛干 更新时间:2023-11-02 07:50:20 25 4
gpt4 key购买 nike

我正在尝试构建一个允许用户录制个人讲话的应用程序,然后将录音保存在设备上并在每条记录上标记讲话者的姓名。然后是检测模式,我记录某人,如果他在本地数据库中,可以告诉他他的名字是什么。

首先 - 这可能吗?我是 iOS 开发的新手,对可用的 API 不是很熟悉。

更重要的是,我应该使用哪个 API(最好是免费的)来关联传入的语音和我在本地数据库中的记录?这应该表现得像 Shazam,但更简单,因为我正在寻找匹配项的数据库要小得多。

最佳答案

如果您是 iOS 开发的新手,我会从核心应用程序开始录制音频,然后让人们手动选择一个配置文件/名称附加到它,然后再考虑说话人识别部分。

对于事物的识别方面,您显然有两种选择:您可以结合其他人的语音验证/说话人识别库(可能是用 C 或 C++ 编写的),或者您可以尝试编写自己的库。

有多少人会使用您的应用?您也许可以自己创建一些基本的东西:如果这是男人和女人之间的区别,您可以通过对音频进行 FFT 频谱分析并找出频率峰值的位置来弄清楚这一点。显然,用于发音不同音素的频率会有所不同,因此解决两个听起来非常相似的人的一般情况可能很困难。您需要使用一堆文本来训练系统并构建某种频率分布模型。您可以尝试进行聚类或其他操作,但您很快就会遇到一些数学问题(gaussian mixture models 等)。有图书馆/项目可以做到这一点。您也许可以从 matlab 移植它,例如:https://github.com/codyaray/speaker-recognition

如果您想使用现成的东西,我会选择像 mistral 这样的直接 C 库,因为从 Objective-C 调用它应该相对容易。

SpeakHere示例代码应该可以帮助您开始录音和播放音频。

此外,用户可能需要更长的时间来训练您的应用程序识别他们,而不是仅仅从列表中选择他们的名字来节省时间。除非您想让他们的声音成为某种安全护照类型的东西,否则可能不值得为之操心。

关于ios - 用于 iPhone 语音识别的 Shazam,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12027710/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com