gpt4 book ai didi

android - 比较android中的两种声音

转载 作者:塔克拉玛干 更新时间:2023-11-02 08:33:13 27 4
gpt4 key购买 nike

我正在开发一个语音消息应用程序,我需要比较两种语音,例如,

  • 通过录制您的声音注册应用程序
  • 发送语音信息至
    另一个用户通过录制语音,但首先需要比较这个语音
    在配置文件中录制语音。

  • 出于安全目的,需要知道记录的消息是否来自特定用户。

    我试过 :

    Compare two sound in Android

    http://www.dreamincode.net/forums/topic/274280-using-fft-to-compare-two-audio-files-and-then-realtime-comparison/

    但不了解语音比较。

    如果有人知道相同的,请分享。没有找到任何样本来做到这一点。

    最佳答案

    既然你表示这是出于安全目的,我想首先分享一些关于语音生物测量的内容:-)

    对某人进行身份验证的问题在于,您需要确保他确实在那里说出了记录的内容……这与仅比较语音特征的复杂程度完全不同。

    从样本中提取语音特征并随后计算新样本与第一个样本之间的距离的算法很容易被攻击者制作的录音所欺骗。

    由于在您的情况下有一个人类收件人,因此创建由随机对话中切碎的单词或句子组成的消息实际上非常困难且耗时。但也不是完全不可能...

    有为音乐行业创建的非​​常好的发声软件,例如获取一些语音音频输入并使其听起来(语调和时间明智)像第二个音频样本(欺诈者制作的指南)。 SynchroArts 的 Vocalign Pro 这样做是为了帮助获得完美的背景声轨。您可以使用其他语音编辑软件进一步手动调整音频,并达到接收者不会立即检测到的可接受的质量水平。

    根据攻击者希望您的用户说什么,如果他拥有他想要的所有录音 Material ,过程的复杂性可能从一个小时到一天不等……

    要对抗这种类型的攻击,您需要检测已编辑的音频样本。数字版会留下不自然的痕迹。例如。在声音周围的背景噪音中。

    AFAICT,只有最好的商业软件才能达到这种级别的安全检查,但我不知道他们在检测此类编辑方面走了多远。

    从纯粹的安全角度来看,您还需要确保设备没有受到损害。所以这些语音验证检查应该发生在服务器端,而不是在手机本身。

    请注意,这些是一般性考虑,这完全取决于您的用例实际需要什么样的安全措施。我的汽车警报器当然不是牢不可破的,但它有助于提高标准,因此可能会窃取它的攻击者更少......

    另一件需要考虑的事情是,根据定义,生物测定是一个统计过程,它会产生一定比例的假阳性和假阴性。通过更改接受阈值,您将能够以提高另一个为代价降低其中一个。

    选择合适的阈值将需要您拥有相当数量的测试数据。说至少 200 个扬声器的 1 分钟录音以开始获取图片。

    我认为您还需要考虑的另一件事是人声的固有可变性。人们可能生病了,这在某些情况下可能会使声音无法辨认。情绪状态也可能起作用:悲伤或愤怒会产生不同的声音......

    最后但并非最不重要的是,周围的噪音可能会造成问题。假设用户在家中注册,然后在繁忙的城市环境中外出时录制消息,系统可能无法确保实际上是同一个人说话。信噪比肯定会成为您的主要问题之一。小提示:根据话筒到嘴巴的距离,比例会有很大的不同。与用户在录制消息时看着屏幕相比,当用户像在常规电话交谈中那样将手机靠近脸部时,您将获得更好的结果。

    语音可变性和信噪比可能是假阴性结果背后的主要原因。

    希望您现在对等待您的挑战有了更好的理解,我可以开始分享一些关于开源和商业图书馆的建议。

    AFAIK,没有包含欺诈者检测的开源库......
    您可能需要查看 Nuance Communication 以获取最新技术。还有很多其他供应商,只需与谷歌核实,我只提到 Nuance 是因为它的声誉。

    有一个名为 Alize(用 C++ 编写,在 LGPL 许可下)的 OSS 库,它使用称为 MFCC(梅尔频率倒谱系数)的算法。众所周知,MFCC 会带来出色的结果。预计会有一个陡峭的学习曲线,因为该软件面向愿意改进该主题最新技术的研究人员,并且使用的词汇非常具体。

    我编写了一个名为 Recognito(Java、Apache 2.0)的 OSS 库,面向普通开发人员,因此您应该能够在几分钟内对其进行测试。这个库还很年轻,在改进算法之前,我首先关注它的 API。我目前使用的算法称为线性预测编码 (LPC),并且已知会带来良好的结果(而且我确实有很好的结果,前提是录音产生相同的质量水平 :-))。我目前正在发布一个新版本,包括匹配结果中的似然系数。 MFCC 实现在路线图上。
    有很多javadoc,代码应该非常简单......
    https://github.com/amaurycrickx/recognito

    Recognito 依赖于 javax.sound 包来处理音频文件。您可能想查看这篇文章,了解在 Android 中使用它需要什么:Voice matching in android

    鉴于很多人都需要 android 的东西,我会在不久的将来做一些事情,而不是说应该如何修改 lib :-)

    HTH

    关于android - 比较android中的两种声音,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23422939/

    27 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com