- android - 多次调用 OnPrimaryClipChangedListener
- android - 无法更新 RecyclerView 中的 TextView 字段
- android.database.CursorIndexOutOfBoundsException : Index 0 requested, 光标大小为 0
- android - 使用 AppCompat 时,我们是否需要明确指定其 UI 组件(Spinner、EditText)颜色
我正在使用这个库 https://code.google.com/p/libmfcc/从幅度平方功率谱生成 MFCC 系数。
不过按照我的理解,第一个系数应该代表整体的能量。我的结果并非如此。这让我怀疑整个功能集。
F0:-3.77,F1:-2.78,F2:2.13,F3:4.47,F4:2.76,F5:-0.00,F6:-0.58,F7:0.76,F8:1.49,F9:0.62,F10:- 0.44,F11:-0.26,F12:0.58
我想要这个系数的唯一原因是帮助消除在我的项目中成为问题的特征。 - 我传入一个 256 个实数长的幅度功率谱(最初是 512 FFT),采样频率为 16000hz。我非常确定 FFT 是正确的,因为我已经运行测试来检查生成的频率。
我正在尝试使用这些功能来执行说话人识别,但目前我一直收到误报。我已经尝试将生成的特征与神经网络、 vector 量化和简单的蛮力欧几里得和斯 PIL 曼的比较结合使用。我所做的一切似乎都无法揭示声音之间系数的唯一性。以误报告终。
几个月来我一直坚持这个问题,我觉得这是我功能的错误。任何帮助将不胜感激!
最佳答案
您的 fft 值不寻常,这是来自语音帧的示例 FFT:
12406.376 317135.746 995981.334 626224.382 2005596.535 4058142.702 1183111.796 1866254.816 3522858.721 340289.386 6767139.243 10894041.353 511321.852 27681515.387 32174731.584 2294241.072 3673880.557 4752891.334 1069708.546 5207759.171 5264486.273 305515.352 1036866.968 1332550.402 150743.522 3417229.415 2512512.261 546054.633 2096752.637 1243709.121 70430.472 1657224.619 1288489.174 915992.292 4282845.277 2132087.811 576691.932 4625295.075 1869747.185 14309491.048 40317789.470 10781189.643 7169652.741 30153832.551 3933090.444 13867788.202 26961212.666 6052446.164 5232152.170 8754440.126 814935.042 4239680.973 8643209.234 869299.756 8493450.137 8647922.201 1814417.128 652202.156 934195.600 72344.850 599552.325 520781.731 94066.862 24987.524 30704.365 14786.379 38961.829 25425.752 457.993 16805.918 21014.001 25724.770 64765.894 31916.339 5772.055 26097.199 14997.984 15845.304 33384.312 10655.138 12742.130 27660.958 4208.045 104839.618 126015.679 126905.152 92657.454 5423.333 6252.982 26137.014 8101.993 23840.536 96350.180 155396.746 111640.103 67379.170 191046.213 53822.423 199623.939 521401.332 240488.616 26096.585 27258.739 56939.019 6054.077 33565.473 17344.580 584.597 27900.058 72742.464 61239.311 13451.726 5192.935 4261.550 439.073 9722.589 18140.512 6855.937 26066.804 19903.202 1091.290 33014.134 42059.955 11662.442 534.955 13736.420 13481.058 48308.510 33231.743 12317.196 48160.791 115668.828 211469.841 163739.245 35339.914 47145.795 37257.335 9065.769 756.579 8372.643 8419.709 1815.682 1017.977 64.215 17711.483 25315.887 44022.134 91004.399 49687.288 1524.393 19627.319 23474.766 9001.670 729.851 11901.670 16078.190 26974.342 13843.501 5620.484 18436.224 27086.375 31720.334 42472.198 143007.306 138588.920 87433.057 108255.923 101891.401 73553.860 76565.005 31125.667 23054.414 75971.499 23780.864 68413.973 240216.065 148102.903 19623.293 8194.448 2725.753 32133.461 60279.038 21668.906 539.175 61133.950 80454.478 6585.491 21330.695 265.198 14129.337 800.514 4 1091.336 66797.293 42455.636 20263.426 973.230 2763.689 1136.641 5300.404 3128.763 2635.018 15487.226 16915.816 5770.127 4770.271 16645.390 13957.322 27129.323 13908.576 2281.975 63947.522 50889.733 697.118 18690.955 12249.632 1006.608 12672.938 4463.555 4693.099 2048.688 1486.160 12965.033 89367.085 57248.261 23332.704 18483.057 1450.837 4288.211 8512.221 9461.348 3105.038 976.106 8155.822 26873.908 44851.560 30956.465 7607.291 4517.811 25642.189 22606.560 12422.574 44612.224 74799.536 25034.774 197.800 2410.775 237.717 3106.175 7980.360 3960.008 8073.620 31488.422 8950.003 3459.935 666.708
702另外,我担心你写的是“FFT per utterance”。必须逐个窗口分析语音,而不是针对整个话语进行分析。您需要先在 Windows 上拆分信号。
关于c - 首先MFCC系数出现错误,不可靠,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23392889/
我已经训练了一个线性回归模型来以多输出方式进行预测。这是一个时间序列预测问题,根据一组输入来估计 future 12 个月的需求。在过去 - 如果我只预测一个输出值 - 我会简单地调用以下命令来访问模
我的应用程序对原始音频信号执行FFT(所有麦克风读数均为values中的16位整数值,即1024个单元)。它首先根据16位对读数进行归一化。然后提取频率为400Hz的幅度。 int sample_ra
我从包含相同语音内容的两个大约 30 秒的音频文件中提取了两个系列 MFCC 系数。音频文件从不同来源录制在同一位置。应该估计音频是否包含相同的对话或不同的对话。目前我已经测试了两个Mfcc系列的相关
我正在尝试使用两个自变量(批处理和方法)和一个因变量 (conc) 运行线性回归。当我运行回归时,我得到一个系数的 NA 值。当我更改模型中自变量的顺序时,NA 值显示为不同的变量。这是一个可重现的数
我想要的,大图:我想知道如何在 Java 中模仿 Mathematica 的 ExtendedGCD[...] 功能。有关该功能的信息可以在 here 中找到,但为了完整起见,我将对其进行简要描述。
我用 R 编写了这个套索代码,并且得到了一些 beta 值: #Lasso library(MASS) library(glmnet) Boston=na.omit(Boston) x=model.m
我有一个幅频响应点列表。振幅以分贝为单位给出。 任务是将此 AFR 列表导出为某些硬件 DSP 设备的一组系数。我知道此设备的文件格式。该设备的规范表明它需要 12288 个系数,并且 DSP 有 2
是否可以替换 lm 对象中的系数? 我认为以下会起作用 # sample data set.seed(2157010) x1 <- 1998:2011 x2 <- x1 + rnorm(length(
我正在尝试使用 lm.ridge 方法执行岭回归。我的问题是如何获得拟合模型的系数?我从调用中得到不同的结果: 模型$coef 系数(模型) 哪个是正确的?另外,为什么我从调用中得到不同的结果: co
以下代码片段死于 Eigen 断言: MatrixXd L; VectorXd x, b; ... ASSERT_MATRIX_EQ(L*x, b); 与, template void ASSERT
有没有办法从编码的图像和视频中轻松提取 DCT 系数(和量化参数)?任何解码器软件都必须使用它们来解码 block DCT 编码的图像和视频。所以我很确定解码器知道它们是什么。有没有办法将它们暴露给使
如何找到矢量 w 是多少,即垂直于分离平面? 最佳答案 我就是这样做的here .如果我没记错的话,这是基于 dual form 的SVM 优化的结果。 model = svmtrain(...);
我是 FFMPEG 的新手。我知道如何提取关键帧, 但现在我想提取那些 I 帧的 DC 系数。 您能否帮助编写 FFMPEG 命令的正确语法以获取 DC 系数? 问候 最佳答案 FFmpeg 命令不会
任何人都可以共享任何代码或可调用以从 HEVC 比特流中提取变换系数 (DCT/DST) 的函数吗? 我检查了 HM 16.0 的源代码。文件\source\Lib\TLibCommon\TComTr
我需要从 MPEG4 视频中提取有关运动矢量和 DC 系数的信息。我搜索了相关站点和主题,发现一个好的解决方案是使用 ffmpeg 编解码器的代码。尤其是 libavcodec/mpegvideo.c
我想删除sympy符号表达式中等于1的任何系数,例如:我希望 1.0x**2 成为 x**2 ,有办法做到吗?另外,如果可能的话,可以对整数进行舍入,例如将 2.0x**2 变为 2*x**2 最佳答
我想删除sympy符号表达式中等于1的任何系数,例如:我希望 1.0x**2 成为 x**2 ,有办法做到吗?另外,如果可能的话,可以对整数进行舍入,例如将 2.0x**2 变为 2*x**2 最佳答
我最近的任务是将 PMML 解析回 R 模型。 (我进行了广泛搜索,没有库可以为您进行这种转换。)我正在尝试将包含多项逻辑回归的 PMML 转换回 R 模型,但我不知道如何转换任何PMML 文档中保存
当使用 pandas statsmodels 的 .summary() 函数时,OLS 回归结果包括以下字段。 coef std err t P>|t| [
我正在 STM32F4 微 Controller 上使用 CMSIS 库开发 PID Controller 。我实在无法理解PID参数的归一化。现在我有了 PID Controller 的三个 Kp、
我是一名优秀的程序员,十分优秀!