- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我正在尝试从包含 1 个单词的语音录音的 .wav 文件中估计基频。
我尝试做的是使用 audioInputStream 读取文件。格式为 PCM_SIGNED 44100.0 Hz,16 位,立体声,4 字节/帧,小端。
因此我制作了一个新的缓冲区,只包含一个 channel 。此代码实现了这一点:
double [] audioRight = new double[audioBytes.length/2];
for(int i = 0, k = 0; i <= audioBytes.length-1; i+=4, k+=2){
audioRight[k]=audioBytes[i];
audioRight[k+1]=audioBytes[i+1];
}
然后数据被移动到一个 fftBuffer,它的大小是原来的两倍,然后应用 DFT。使用的库是 JTransform。使用的函数称为 realForwardFull。
DoubleFFT_1D fftDo= new DoubleFFT_1D(audioLeft.length);
double[] fftBuffer = new double [audioLeft.length*2];
for (int i = 0; i < audioLeft.length; i++){
fftBuffer[i] = audioLeft[i];
}
fftDo.realForwardFull(fftBuffer);
这给出了一个复数列表,我用它来计算每个复数的幅度/振幅以制作功率谱。
用于获取振幅的公式Amplitude=sqrt(IMIM+RERE).
这提供了一个振幅数组,我对其应用了谐波求和方法。谐波求和是指给出最高和的指数 + 3 次谐波是代表基频的指数。
double top_sum = 0;
double first_index = 0;
double sum = 0;
double f_0 = 0;
double FR = audioInputStream.getFormat().getSampleRate()/2/ampBuffer.length;
for (int i = 50; i <= ampBuffer.length/4-1; i++){
sum = ampBuffer[i]+ampBuffer[i*2]+ampBuffer[i*3]+ampBuffer[i*4];
if (top_sum < sum){
top_sum=sum;
first_index = i;
然而,该索引需要映射回正确的频率域。据我了解,应该通过说 (index/fttBuffer.length)*sampleRate 来完成。
这提供了对基频的估计。
然而,结果并不“正确”。我有几个不同的 .wav 文件要测试,其中大部分的结果超出预期范围。对于相同的女声,三个不同的词给出的结果分别为 40、13 和 360。所有这三个结果预计都在大约 250 到 350 的范围内。
我认为造成这种情况的一些问题是振幅缓冲区值。绘制时,该图没有显示任何代表谐波的清晰峰。
这是图表的图像:
我知道这是很多信息,但我相信更多的信息可以更容易理解所做的事情。
回顾:我不确定的是振幅数据。这些值(value)观有意义吗?它们绘制正确吗?在搜索和声并找到基频之前,我是否需要对数据做些什么?
我考虑过应用某种窗口,因为我怀疑泄漏可能是绘图中确实具有的峰值彼此不谐波的原因。
如有任何帮助或建议,我们将不胜感激。预先感谢您的帮助!
编辑:作为对建议的尝试:
ByteBuffer buf = ByteBuffer.wrap(audioBytes);
buf.order(ByteOrder.LITTLE_ENDIAN);
double[] audio = new double[audioBytes.length/2];
for(int i = 0; i < audioBytes.length/2; i++) {
short s = buf.getShort();
double mono = (double) s;
double mono_norm = mono / 32768.0;
audio[i]=mono_norm;
}
现在应该在数组audio[]中保存一个 channel 的pcm数据。
最佳答案
一些一般提示:
你说你试图估计一个口语词的基本频率。一个“单词”由几个辅音和元音(或更好的 phonemes )组成。每个“元音”都有不同的基频,在大多数情况下,频率甚至会在一个元音内发生变化(这会产生我们句子的“旋律”)。 Thius 意味着您应该估计语音的一个非常短的间隔的基频/音调,并确保您正在查看元音(辅音是某种形式的噪声并且具有循环分量)。
所以第一步应该是生成你的单词的频谱图。
然后您可以计算感兴趣部分的短期 FFT,并进行调和求和。
不过,使用短期自相关函数会得到更好的结果。
其他要研究的东西:音调检测、倒谱
关于Java - 估计基频的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17746350/
经过几个小时的(重新)搜索,我无法想出普通抽象类和使用模板模式之间的可解释区别。 我唯一看到的是: 使用抽象类时,您需要实现所有方法。但是在使用模板方法时,您只需要实现这两个抽象方法。 有人可以向我解
我正在尝试实现一种算法,该算法可找到以下形状给出的外多边形的每个单独边的对应区域。也就是说,1,2 边的相应区域是 [1,6,7,8,2],2,3 边的区域是 [2,8,3] 等等,CCW 或 CW
我正在尝试在派生 self 的 BaseController 类的任何 Controller 上自动设置一个属性。这是我的 Application_Start 方法中的代码。 UnitOfWork 属
我正在使用 mgcv 包通过以下方式将一些多项式样条拟合到一些数据: x.gam smooth$knots [1] -0.081161 -0.054107 -0.027053 0.000001
考虑以下代码: void foo(){ ..... } int main() { int arr[3][3] ; char string[10]; foo();
本书The c++ programming language有这个代码: class BB_ival_slider : public Ival_slider, protected BBslider {
是否有一个 package.json 属性可用于指定模块解析应启动的根文件夹? 例如,假设我们在 node_modules/mypackage/src/file1 中有一个安装。我们要导入的所有文件都
我正在尝试使用聚合函数来实现与 SQL 查询相同的结果: 查询语句: sqldf(" SELECT PhotoID, UserID,
我正在比较使用 LOESS 回归的两条线。我想清楚地显示两条线的置信区间,我遇到了一些困难。 我尝试过使用各种线型和颜色,但在我看来,结果仍然是忙碌和凌乱。我认为置信区间之间的阴影可能会使事情变得更清
给定这段代码 public override void Serialize(BaseContentObject obj) { string file = ObjectDataStoreFold
我正在构建某种工厂方法,它按以下方式将 DerivedClass 作为 BaseClass 返回: BaseClass Factory() { return DerivedClass(); }
当重写 class delegation 实现的接口(interface)方法时,是否可以调用通常从重写函数中委托(delegate)给的类?类似于使用继承时调用 super 的方式。 来自docum
我有一个基类 fragment (如下所示)。我在其他 3 个 fragment 类中扩展了此类,每个类都共享需要在这 3 个 fragment 中访问的相同 EditText。因此,我在基类中设置了
如何在不加载额外库的情况下在 R 中计算两个排列之间的 Kendall tau 距离(又名冒泡排序距离)? 最佳答案 这是一个 O(n.log(n)) 的实现,在阅读后拼凑而成,但我怀疑可能有更好的
情况 我创建了一个具有国际化 (i18n) 的 Angular 应用程序。我想在子域中托管不同的版本,例如: zh.myexample.com es.myexample.com 问题 当我使用命令 n
std::is_base_of 之间的唯一区别和 std::is_convertible是前者在 Base 时也成立是 私有(private)或 protected Derived 的基类.但是,您何
我创建了一个名为 baseviewcontroller 的父类(super class) uiviewcontroller 类,用于包含大多数应用屏幕所需的基本 UI。它包括一个自定义导航栏和一个“自
我是一名优秀的程序员,十分优秀!