gpt4 book ai didi

tensorflow - TensorFlow 音频/语音识别是否适用于多词触发关键字?

转载 作者:行者123 更新时间:2023-12-04 15:50:06 26 4
gpt4 key购买 nike

相关链接:https://www.tensorflow.org/tutorials/sequences/audio_recognition

我应该如何修改我的 TensorFlow“简单音频识别”训练环境(输入样本的数量、触发关键字的选择、训练参数等)以获得对唯一触发关键字(多词或单词)的稳健识别单词)在正常对话中?

原始 TensorFlow“简单音频识别”带有 10 个单触发关键字,每个持续时间为 1 秒。为了避免在正常对话中检测到单个触发关键字并导致误报,我记录了 400 次(100 次 4 个不同的人)以下两个多词触发关键字,每次持续 1.5 秒:PLAY MUSIC,STOP MUSIC。在遵循完全相同的训练步骤并补偿代码中新的 1.5 秒持续时间后,如果发音正确,我将 100% 识别这两个多词触发关键字;然而,进一步的测试还表明,当这些触发关键字的任何工作被发音时,我在正常演讲中得到误报,例如停止 BLA BLA BLA、停止视频、播放 BLA BLA BLA、播放视频等。

感谢您的热情回复,下午

最佳答案

您应该在训练数据集中添加了垃圾语音,但不确定您是否这样做了。

对于非常长的短语,更可靠的方法是检测较小的 block 并确保它们都存在 - 即为“播放”和“音乐”设置单独的检测器。

例如,Google 在其“ok google”中分别检测“ok”和“google”,如 SMALL-FOOTPRINT KEYWORD SPOTTING USING DEEP NEURAL NETWORKS 中所述.

关于tensorflow - TensorFlow 音频/语音识别是否适用于多词触发关键字?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54174365/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com