gpt4 book ai didi

speech-recognition - 从谷歌语音 api 结果中检测流畅度

转载 作者:行者123 更新时间:2023-12-03 17:34:04 24 4
gpt4 key购买 nike

我正在尝试使用谷歌语音(到文本)API 来确定演讲者的流畅度。
到目前为止,我发现 API (betav1) 可以显示说话所需的时间(开始时间和结束时间)。
从维基百科,

Oral fluency or speaking fluency is a measurement both of productionand reception of speech, as a fluent speaker must be able tounderstand and respond to others in conversation. Spoken language istypically characterized by seemingly non-fluent qualities (e.g.,fragmentation, pauses, false starts, hesitation, repetition) becauseof ‘task stress.’ How orally fluent one is can therefore be understoodin terms of perception, and whether these qualities of speech can beperceived as expected and natural (i.e., fluent) or unusual andproblematic (i.e., non-fluent)


我可以看到我们可以从单词的 API 中获取暂停、重复等。但是相对测量可能很困难,因为我找不到任何标准值。
有没有适当的方法来实现这一目标?任何人都可以给出一个指南来检测 google API 的流畅度(或使用某种开源语音库或外部软件的任何其他有效方法)
如果我完全走错了方向,那完全没问题,只需要一个适当的指南来实现该功能。

最佳答案

这实际上取决于您拥有的数据。我不熟悉谷歌文本到语音 API。但是,根据数据的结构,有一些替代选项可以实现您想要的目标。

  • 如果数据是结构化的(即单词和与这些单词的属性相对应的值的表),您可以运行分类(或回归)算法,例如随机森林或多元逻辑回归来估计流畅度(在连续量表)或流利的类别(例如非常流利、有点流利、正常、有点流利、非常流利)。
  • 如果数据是非结构化的(例如一个短语的录音)——那么你可以在 keras/tensorflow 中尝试一个神经网络,旨在将不同的短语分类为流利的或不流利的。
  • 关于speech-recognition - 从谷歌语音 api 结果中检测流畅度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50020796/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com