- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想弄清楚如何将 WAV 文件中的数据分离到它的组成注释中。我加载 WAV 文件:
import scipy.io.wavfile as wavfile
rate, data = wavfile.read('scale.wav')
time = np.arange(len(data[:,0]))*1.0/rate
并绘制
plt.plot(time, data[:,0])
plt.show()
这给了我 this picture ,这是其中有八个音符的钢琴音阶。我想要一种方法来隔离每个音符,这样我就可以找到它的频率并找出正在播放的音符。一旦我将笔记分开,我就可以处理剩下的事情。
我已经尝试找到最大值,但是最大值太多并且需要多次迭代才能将其降低到我想要的最大值,这是一种不可靠的方法,因为进行过多的迭代会消除一些较低的振幅峰值.及时获得音符的长度会很好。
编辑:所以这就像你们先生们所说的那样非常复杂。我现在想我只想找到“极端”峰值,然后找到这些峰值之后的极端最小值,并将其用作我的笔记,因为我们不需要太大的数据片段来计算它的频率。我遇到的问题是,有很多峰,很难只找到我想要的峰。有什么想法吗?
最佳答案
可能最简单和最有趣的事情是计算 spectrogram你的数据,这基本上是你的数据的短部分的光谱图,根据时间绘制。一定要使频率标度为对数,因为钢琴上键的频率是指数空间。在 Python 中,您可以使用函数 specgram计算这个,它包含在 matplotlib 中。参见示例 this google image search对于这如何寻找不同类型的音乐。也看看一些可以播放MP3/WAV并带有可视化插件的电脑程序,我记得Winamp在10多年前就有播放现场频谱图的方法。
这是一个有趣的练习,但如果你想使用这种技术自动转录一些音乐的音符,请让我警告你:这是一个非常困难的问题,科学家们已经研究了很多年。例如,一个问题是大多数乐器会产生大量谐波,这会混淆任何自动查找音符的算法。忘记任何带有人声或打击乐的音乐,因为它们会产生大量宽带噪声(尤其是字母“s”和踩镲),几乎无法识别任何其他音符。
如果您想要更有趣,请查看 Q 变换(参见 wikipedia 以及从那里引用的论文)。您可以将其视为频谱图,但沿频率轴的 bin 以对数方式间隔(例如,钢琴音阶上的每个二分音符或四分之一音符的 bin)。与标准频谱图相比,此方法的优势在于每个音符具有恒定数量的频率区间,而线性频率标度的低音区间很少,而高音区间太多。我不知道这是否适用于 numpy,您可能需要自己编写代码。
关于python - 在 WAV 文件中查找音符,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22226059/
如果已知该确切样本存在于 wav 中的某处(但可能与其他声音混合),是否可以使用 FFT 找到较长 wav 中出现的小 wav 样本? 编辑 (收到两个回复后):如果我有一个包含所有已知声音的库,这些
我对 .NET 中的音频完全陌生,所以请多多包涵。 我的目标是创建一个具有两个 channel 的 wav 文件。左声道将包含语音消息(使用 SpeechSynthesizer 生成的流),右声道需要
我的大部分信息都来自其他stackoverflow帖子,但没有一个真正有用。 import UIKit import AVFoundation class FaceButtonSc
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 3 年前。
这可能是一个非常简单的问题;我将一个单声道 WAV 文件转换为一个 short[] 数组,并且我有一个将其写回 WAV 文件的函数。一切正常。 (writeBuffer 是 short[] 数组) b
我们的应用程序需要知道它加载的音频文件的样本数。我们使用的库可以可靠地确定采样率,但不能确定样本数。我们是否可以仅从文件大小和采样率来计算样本数? 最佳答案 马克说什么。不,通常您需要解释标题。但是,
我正在用java做一个项目,需要我加密wave文件。那么,是否有一个直接的过程可以将波形文件转换为二进制文件并返回?我将对二进制数据应用加密算法。 最佳答案 是的。 File file = new F
我想知道如何从 .wav 文件中获取样本以执行两个 .wav 文件的窗口连接。 谁能告诉我怎么做? 最佳答案 wave标准库的模块是关键:当然在代码顶部的 import wave 之后,wave.op
我有一个几分钟长的 .wav 文件,我想将其分成不同的 10 秒 .wav 文件。 到目前为止,这是我的 python 代码: import wave import math def main(fil
我在 ffmpeg 中使用以下命令合并多个 wav 文件: -f concat -safe 0 -i /storage/emulated/0/AudioClipsForSpeakerRecogniti
我正在尝试用python实现主动降噪。我的项目由两组代码组成: 录音代码 声音过滤代码 我的目标是当您运行该程序时,它将开始通过麦克风录音。录音完成后,会生成一个名为“file1.wav”的保存文件,
我正在尝试制作一个音乐识别系统。我担心我可能没有按照预期读取 wav 样本,而且我可能会应用错误的窗口大小来进行 FFT 和其他操作。 如果你能帮我的话,那就太好了。 首先,我有一些关于 Wavs 中
如何使用 java 合并两个 wav 文件? 我试过了 this但它没有正常工作,他们还有其他方法吗? 最佳答案 如果您直接处理 wav 文件的字节,您可以在任何编程语言中使用相同的策略。对于此示例,
尝试为我的 previous question 找到解决方法,我想将用 byte[](具有 wav header )编写的 16k 8 位单声道 wav 转换为 8k 8 位单声道流/字节 []。 是
目前我正在使用一个语音到文本的翻译模型,该模型采用 .wav 文件并将音频中的可听语音转换为文本转录本。该模型之前曾用于直接录制的 .wav 音频录音。但是现在我正在尝试对视频中最初出现的音频做同样的
试图在 python 中将 wav 文件转换为 wav uLaw。 使用 pydub 的 AudioSegment,我可以使用以下命令转换为 mp3: AudioSegment.from_wav(fr
我在 xcode 项目中添加了 LibFlac。然后我在我的项目中添加了来自 Libflac 的decode/main.c。我通过了 infile.flac 并运行了项目的可执行文件,但它给出了以下错
大家好,感谢您的阅读。 我想使用 Python 的 scipy.io.wavfile 对一首歌进行一些分析。由于我只有 .mp3 格式的歌曲,因此我使用 ffmpeg 将文件转换为 .wav,方法如下
我需要连接两个音频波,以便最终输出的音频波应该有一个更平滑的交汇点。我的意思是,在连接点,假设 10 秒钟,第一个音频应该开始淡出,而另一个音频开始拾取。 我已经能够连接两个音频文件并生成单个输出,但
我需要将一个 wav 文件转换为 8000Hz 16 位单声道 Wav。我已经有一个代码,它适用于 NAudio 库,但我想使用 MemoryStream 而不是临时文件。 using System.
我是一名优秀的程序员,十分优秀!