- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我是第一次使用音频文件使用 C 语言进行编程。我发现这段代码应该读取一个音频文件,然后编写一个包含多个信息的 csv 文件以分析音频波,以防万一是一个简单的声音:我对波幅、音色感兴趣声音及其高度和延伸。
main () {
// Create a 20 ms audio buffer (assuming Fs = 44.1 kHz)
int16_t buf[N] = {0}; // buffer
int n; // buffer index
// Open WAV file with FFmpeg and read raw samples via the pipe.
FILE *pipein;
pipein = popen("ffmpeg -i whistle.wav -f s16le -ac 1 -", "r");
fread(buf, 2, N, pipein);
pclose(pipein);
// Print the sample values in the buffer to a CSV file
FILE *csvfile;
csvfile = fopen("samples.csv", "w");
for (n=0 ; n<N ; ++n) fprintf(csvfile, "%d\n", buf[n]);
fclose(csvfile);
}
有人可以详细解释我如何读取音频文件以便从中提取我需要的信息吗?引用这段代码,有人能解释一下第 8 行管道的含义吗
pipein = popen("ffmpeg -i whistle.wav -f s16le -ac 1 -", "r");
附注我已经知道如何读取音频文件的标题,其中包含很多有用的信息,但我还想逐个样本地分析整个音频文件。
最佳答案
我刚刚编译然后运行了您的代码...输出文件 samples.csv 是一个垂直列,由带符号的 16 位整数组成,代表输入音频曲线的每个样本...如:YMMV
-20724
-19681
-18556
-17359
-16096
-14766
-13383
-11940
-10460
-8928
-7371
-5778
-4165
-2536
-897
749
2385
4019
5633
7224
8793
10318
11811
13251
14644
15977
17247
... 所以当原始音频在您的变量 buf
中时,您可以添加到上面的代码中来回答您的问题
volume - 音频是一条曲线,所以当曲线无法摆动时它会静音......在计算音量时理解位深度的含义至关重要......我建议你打开输出文件一个文本编辑器来观察每个值......知道你有 16 位的位深度告诉你可能的整数值的数量......在空白的凝视中read up on PCM raw audio ... 初步估计,对代码的以下更改将告诉您音量
int min_value = 9999;
int max_value = -9999;
for (n=0 ; n < N ; ++n) {
if (buf[n] < min_value) min_value = buf[n];
if (buf[n] > max_value) max_value = buf[n];
fprintf(csvfile, "%d\n", buf[n]);
}
fclose(csvfile);
printf("min_value %d\n", min_value);
printf("max_value %d\n", max_value);
知道你的音频的位深度,假设它是 16 位,那么你有 2^16 个可能的不同整数......从 0 到 (65536 - 1) 来表示你的原始音频的曲线......如果你的数据是无符号的......如果它的有符号整数(如WAV文件头中定义的那样)然后移动该范围使其以零为中心......那么范围将从-32768到(+32768 - 1)或 - 32768 到 +32767 ... 所以如果您的音频 buf[n]
值遍历从最小值到最大值的整个可能范围,那么您的音频样本片段可以说是全音量 ...现在我们可以解释上面的测量值:min_value 和 max_value ...如果 min_value 大约是 -16384,如果 max_value 大约是 +16384,那么音量大约是最大值的一半,因为它只消耗可能范围的一半整数值
因此可以使用此公式(通过过度简化)计算 0 到 1(最小到最大体积)范围内的体积
num_possible_ints = 2^bit_depth // == 65536 for bit depth of 16 bits
volume = 1 - ( num_possible_ints - ( max_value - min_value )) / num_possible_ints
为什么这么简单?因为如果不对您的音频缓冲区进行预处理 [通过丢弃很少达到最大值或最小值的异常音频样本,如果需要的话] 这种方法很容易给出过高的音量测量值
有更好的体积测量方法,但请记住它容易产生感知偏差... lookup Root Mean Square to calculate volume with better accuracy ... to quote :
RMS is averaging the area displaced by the signal, the area between the waveform and the linear zero line (not 0dB, but the axis).
As the waveform swings both above (+) and below (-) the centreline, the polarity of the swings has to be disregarded. Luckily, in maths, anything multiplied by itself (squaring) ends up positive. The signal can then be averaged (arithmetic mean over the timeline/window ED mentions or its integration time) as the positive and negative halves won't now cancel each other out -and finally the inverse to squaring is executed -square root.
RMS just means root-mean-square or the square-root of the arithmetic mean of the square of the signal.
In reality, what it means is that a signal of high-amplitude, spikey, transient content can have the same RMS value as one of lower amplitude but fatter waveform -because they both have the same energy content. If you put them through a speaker, they should both generate the same acoustical energy output.
Typical spikey waveforms are things like drum transients, whereas fatter waveforms would be sine waves or even square waves (as fat as you can get), where a much lower peak level would be needed to have the same power (a sine wave of 1.4Vp has the same RMS level as a square wave of 1.0Vp).
...这应该让你开始
关于将编码的音频文件转换为具有信号值的文本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45576682/
我正在尝试将一个字符串逐个字符地复制到另一个字符串中。目的不是复制整个字符串,而是复制其中的一部分(我稍后会为此做一些条件......) 但我不知道如何使用迭代器。 你能帮帮我吗? std::stri
我想将 void 指针转换为结构引用。 结构的最小示例: #include "Interface.h" class Foo { public: Foo() : mAddress((uint
这有点烦人:我有一个 div,它从窗口的左上角开始过渡,即使它位于文档的其他任何位置。我试过 usign -webkit-transform-origin 但没有成功,也许我用错了。有人可以帮助我吗?
假设,如果将 CSS3 转换/转换/动画分配给 DOM 元素,我是否可以检测到该过程的状态? 我想这样做的原因是因为我正在寻找类似过渡链的东西,例如,在前一个过渡之后运行一个过渡。 最佳答案 我在 h
最近我遇到了“不稳定”屏幕,这很可能是由 CSS 转换引起的。事实上,它只发生在 Chrome 浏览器 上(可能还有 Safari,因为一些人也报告了它)。知道如何让它看起来光滑吗?此外,您可能会注意
我正在开发一个简单的 slider ,它使用 CSS 过渡来为幻灯片设置动画。我用一些基本样式和一些 javascript 创建了一支笔 here .注意:由于 Codepen 使用 Prefixfr
我正在使用以下代码返回 IList: public IList FindCodesByCountry(string country) { var query =
如何设计像这样的操作: 计算 转化 翻译 例如:从“EUR”转换为“CNY”金额“100”。 这是 /convert?from=EUR&to=CNY&amount=100 RESTful 吗? 最佳答
我使用 jquery 组合了一个图像滚动器,如下所示 function rotateImages(whichHolder, start) { var images = $('#' +which
如何使用 CSS (-moz-transform) 更改一个如下所示的 div: 最佳答案 你可以看看Mozilla Developer Center .甚至还有例子。 但是,在我看来,您的具体示例不
我需要帮助我正在尝试在选中和未选中的汉堡菜单上实现动画。我能够为菜单设置动画,但我不知道如何在转换为 0 时为左菜单动画设置动画 &__menu { transform: translateX(
我正在为字典格式之间的转换而苦苦挣扎:我正在尝试将下面的项目数组转换为下面的结果数组。本质上是通过在项目第一个元素中查找重复项,然后仅在第一个参数不同时才将文件添加到结果集中。 var items:[
如果我有两个定义相同的结构,那么在它们之间进行转换的最佳方式是什么? struct A { int i; float f; }; struct B { int i; float f; }; void
我编写了一个 javascript 代码,可以将视口(viewport)从一个链接滑动到另一个链接。基本上一切正常,你怎么能在那里看到http://jsfiddle.net/DruwJ/8/ 我现在的
我需要将文件上传到 meteor ,对其进行一些图像处理(必要时进行图像转换,从图像生成缩略图),然后将其存储在外部图像存储服务器(s3)中。这应该尽可能快。 您对 nodejs 图像处理库有什么建议
刚开始接触KDB+,有一些问题很难从Q for Mortals中得到。 说,这里 http://code.kx.com/wiki/JB:QforMortals2/casting_and_enumera
我在这里的一个项目中使用 JSF 1.2 和 IceFaces 1.8。 我有一个页面,它基本上是一大堆浮点数字段的大编辑网格。这是通过 inputText 实现的页面上的字段指向具有原始值的值对象
ScnMatrix4 是一个 4x4 矩阵。我的问题是什么矩阵行对应于位置(ScnVector3),旋转(ScnVector4),比例(ScnVector3)。第 4 行是空的吗? 编辑: 我玩弄了
恐怕我是 Scala 新手: 我正在尝试根据一些简单的逻辑将 Map 转换为新 Map: val postVals = Map("test" -> "testing1", "test2" -> "te
输入: This is sample 1 This is sample 2 输出: ~COLOR~[Green]This is sample 1~COLOR~[Red]This is sam
我是一名优秀的程序员,十分优秀!