python - 使用 FFT 和多项式插值改变人类语音的旋律-6ren

python - 使用 FFT 和多项式插值改变人类语音的旋律

转载作者：行者123 更新时间：2023-12-04 03:59:20

我正在尝试执行以下操作:

提取我提问的旋律(单词“嘿？”记录到wav)所以我得到了一个旋律模式，我可以应用到任何其他录制/合成语音(基本上是 F0 如何随时间变化)。
使用多项式插值(拉格朗日？)所以我得到一个描述旋律的函数(当然是近似值)。
将该函数应用于另一个录制的语音样本。 (例如单词“Hey.”所以它被转换为问题“Hey?”，或者将句子的结尾转换为听起来像一个问题[例如。“< strong>还好吗。"=> "还好吗？"])。瞧，就是这样。

我做了什么？我在哪里？首先，我深入研究了 fft 和信号处理(基础知识)背后的数学原理。我想以编程方式进行，所以我决定使用 python。

我对整个“Hey?”语音样本执行了 fft 并获得了频域数据(请不要介意 y 轴单位，我没有对它们进行归一化)

到目前为止一切顺利。然后我决定将我的信号分成 block ，以便获得更清晰的频率信息 - 峰值等 - 这是一个盲目拍摄，我试图掌握操纵频率和分析音频数据的想法。然而，它让我无处可去，至少不是我想要的方向。

现在，如果我获取这些峰值，从中得到一个插值函数，并将该函数应用于另一个语音样本(语音样本的一部分，当然也是 ffted)并执行反向 fft，我会得到我想要的，对吗？我只会改变幅度，这样它就不会影响旋律本身(我认为是这样)。

然后我用了 spec 和 pyin 方法从 librosa 提取真正的 F0-in-time - 问问题“Hey?”的旋律。正如我们所料，我们可以清楚地看到频率值的增加:

一个非问题陈述看起来像这样 - 假设它更像是常量。

这同样适用于较长的语音样本:

现在，我假设我有 block 来构建我的算法/过程，但我仍然不知道如何组装它们，因为我对幕后发生的事情的理解有些空白。

我认为我需要找到一种方法将 F0-in-time 曲线从频谱图映射到“纯”FFT 数据，从中获取插值函数，然后将该函数应用于另一个语音样本。

是否有任何优雅(不优雅也可以)的方式来做到这一点？我需要指向正确的方向，因为我能感觉到我很接近，但我基本上被卡住了。

上述图表背后的代码仅取自 librosa 文档和其他 stackoverflow 问题，它只是一个草稿/POC，所以请不要评论样式，如果可以的话:)

分块:

import numpy as np import matplotlib.pyplot as plt from scipy.io import wavfile import os file = os.path.join("dir", "hej_n_nat.wav") fs, signal = wavfile.read(file) CHUNK = 1024 afft = np.abs(np.fft.fft(signal[0:CHUNK])) freqs = np.linspace(0, fs, CHUNK)[0:int(fs / 2)] spectrogram_chunk = freqs / np.amax(freqs * 1.0) # Plot spectral analysis plt.plot(freqs[0:250], afft[0:250]) plt.show()
频谱图:

import librosa.display import numpy as np import matplotlib.pyplot as plt import os file = os.path.join("/path/to/dir", "hej_n_nat.wav") y, sr = librosa.load(file, sr=44100) f0, voiced_flag, voiced_probs = librosa.pyin(y, fmin=librosa.note_to_hz('C2'), fmax=librosa.note_to_hz('C7')) times = librosa.times_like(f0) D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max) fig, ax = plt.subplots() img = librosa.display.specshow(D, x_axis='time', y_axis='log', ax=ax) ax.set(title='pYIN fundamental frequency estimation') fig.colorbar(img, ax=ax, format="%+2.f dB") ax.plot(times, f0, label='f0', color='cyan', linewidth=2) ax.legend(loc='upper right') plt.show()
非常感谢提示、问题和评论。

最佳答案

问题是我不知道如何修改基频(F0)。通过修改它，我的意思是也修改 F0 及其谐波。

有问题的频谱图显示了特定时间点的频率以及特定频率点的功率 (dB)。因为我知道哪个时间段包含旋律中的哪个频率(下面的绿线)......

....我需要计算一个代表那条绿线的函数，这样我就可以将它应用于其他语音样本。

所以我需要使用一些插值方法，将样本F0功能点作为参数。

需要记住多项式的次数应该等于点数。不幸的是，这个例子没有，但是对于原型(prototype)来说，效果在某种程度上是可以的。

def _get_bin_nr(val, bins): the_bin_no = np.nan for b in range(0, bins.size - 1): if bins[b] <= val < bins[b + 1]: the_bin_no = b elif val > bins[bins.size - 1]: the_bin_no = bins.size - 1 return the_bin_no def calculate_pattern_poly_coeff(file_name): y_source, sr_source = librosa.load(os.path.join(ROOT_DIR, file_name), sr=sr) f0_source, voiced_flag, voiced_probs = librosa.pyin(y_source, fmin=librosa.note_to_hz('C2'), fmax=librosa.note_to_hz('C7'), pad_mode='constant', center=True, frame_length=4096, hop_length=512, sr=sr_source) all_freq_bins = librosa.core.fft_frequencies(sr=sr, n_fft=n_fft) f0_freq_bins = list(filter(lambda x: np.isfinite(x), map(lambda val: _get_bin_nr(val, all_freq_bins), f0_source))) return np.polynomial.polynomial.polyfit(np.arange(0, len(f0_freq_bins), 1), f0_freq_bins, 3) def calculate_pattern_poly_func(coefficients): return np.poly1d(coefficients)

方法 calculate_pattern_poly_coeff 计算多项式系数。

使用 pythons poly1d lib 我可以计算可以修改语音的函数。怎么做？我只需要在某个时间点垂直向上或向下移动所有值。例如，我想将时间 bin 0.75 秒处的所有频率向上移动 3 次 -> 这意味着频率将增加，此时的旋律听起来会更高。

代码:

def transform(sentence_audio_sample, mode=None, show_spectrograms=False, frames_from_end_to_transform=12): # cutting out silence y_trimmed, idx = librosa.effects.trim(sentence_audio_sample, top_db=60, frame_length=256, hop_length=64) stft_original = librosa.stft(y_trimmed, hop_length=hop_length, pad_mode='constant', center=True) stft_original_roll = stft_original.copy() rolled = stft_original_roll.copy() source_frames_count = np.shape(stft_original_roll)[1] sentence_ending_first_frame = source_frames_count - frames_from_end_to_transform sentence_len = np.shape(stft_original_roll)[1] for i in range(sentence_ending_first_frame + 1, sentence_len): if mode == 'question': by = int(_question_pattern(i) / 500) elif mode == 'exclamation': by = int(_exclamation_pattern(i) / 500) else: by = 0 rolled = _roll_column(rolled, i, by) transformed_data = librosa.istft(rolled, hop_length=hop_length, center=True)

def _roll_column(two_d_array, column, shift):two_d_array[:, column] = np.roll(two_d_array[:, column], shift)返回 two_d_array

在这种情况下，我只是简单地向上或向下滚动引用特定时间段的频率。

这需要完善，因为它没有考虑转换样本的实际状态。它只是根据先前使用多项式函数计算机计算的因子向上/向下滚动。

您可以在 github 查看我项目的完整代码, "audio"包包含上述模式计算器和音频转换算法。

如有不明之处欢迎随时提问:)

关于python - 使用 FFT 和多项式插值改变人类语音的旋律，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63339608/

文章推荐： python - 在Python中逆时针方向对多边形坐标列表进行排序

文章推荐： SwiftUI 从 UIKit 获取数据到 SwiftUI

文章推荐： flutter - 制作多个单行字符串快捷方式 Flutter

文章推荐： wix - 如何从CustomAction获取返回码？

nlp - (人类)文档的语言
有没有一种方法(程序、库)可以大致了解文档是用哪种语言编写的？我有一堆混合语言的文本文档(~500K)，需要导入支持 i18n 的 CMS (Drupal).. 我不需要完美的匹配，只需要一些猜测。
java - Java数字，“人类”舍入
Closed. This question needs details or clarity。它当前不接受答案。
html - 在一个网页上使用多种自然(人类)语言的最佳实践？
使用 UTF-8 编码。 (Multiple languages in one HTML page)。跨不同浏览器(包括 iPad 上的 Safari)在单个网页上正确显示多种人类语言的最佳做法是什
c++ - 使用两种(人类)语言的应用程序
我有一个完全可用的代码，它是为 Windows 编写的，是用 Visual Studio 构建的。我想做的是为该软件添加另一种语言。我的想法是在窗口角落放置两个标志(一个英语和一个德语)，并在用户点
Lua 字节码到 Lua 人类 "readable"
我刚刚得到一个脚本，我想对其进行一些更改，我正在寻找某人为我开发一份自由职业，以使我将提供的加载字符串可读以进行编辑。 Lua代码是这样的: ------------------------- ENG
algorithm - 高级(口语/人类)语言翻译项目？
有没有不是简单逐字翻译的语言翻译项目？一个具有先进算法/设计的？目前主流和流行的翻译软件，例如谷歌翻译，似乎是查找一个词或一组连续的词，然后将其直接翻译成不知何故确定为最佳匹配的内容。但是因为它不是
java - Twilio - 人类/非人类/机器人检测(IfMachine 参数)
基于 Twilio 的人类/非人类检测 - 我正在尝试通过如下所示的代码来检测调用是否被人类或机器人接听 HashMap params = new HashMap(); params.put("Fro
php - 我是否破坏了以下处理 3 种(人类)语言的 php 数组中的任何 "php good practice"？
这是目前(不确定)我能想到的处理多语言网站的最佳方式，它不涉及 gettext、zend_translate 或任何 php 插件或框架。我认为它非常简单:我有 3 种语言，我将它们的“内容”写在不

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 使用 FFT 和多项式插值改变人类语音的旋律