gpt4 book ai didi

python - 使用 python 在音频中查找语速和语调

转载 作者:行者123 更新时间:2023-12-03 00:13:24 52 4
gpt4 key购买 nike

给定一个音频,我想计算语音的节奏。即它有多快或多慢。

目前我正在做以下事情:
- 将语音转换为文本并获取成绩单(使用免费工具)。
- 计算成绩单中的字数。
- 计算文件的长度或持续时间。
- 最后,pace = (number of words in transcript / duration of file) .

然而,获得的速度的准确性完全取决于转录,我认为这是一个不必要的步骤。

是否有任何 python-library/sox/ffmpeg 方式可以让我

  • 以直接的方式计算音频中谈话的速度/节奏
  • 该音频的主要音高/音调?

  • 我转介:我转介: http://sox.sourceforge.net/sox.htmlhttps://digitalcardboard.com/blog/2009/08/25/the-sox-of-silence/

    最佳答案

    作为一种快速的一阶近似,您的方法听起来很有趣,但受转录分辨率的限制。您可以直接分析音频文件。

    我对 Sox 不熟悉,但从他们的手册看来,统计 选项给出“...关于音频的时域和频域统计信息”

    Sox 声称自己是“音频处理的瑞士军刀”,并且仅通过浏览他们的文档似乎可能适合您找到一般节奏。

    如果你也想运行音高分析,那么你可以用 python 开发你自己的算法——我最近使用了 librosa,发现它非常有用并且有据可查。

    关于python - 使用 python 在音频中查找语速和语调,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48220514/

    52 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com