machine-learning - 哪些FFT描述符应用作实现分类或聚类算法的功能？-6ren

machine-learning - 哪些FFT描述符应用作实现分类或聚类算法的功能？

转载作者：行者123 更新时间：2023-11-30 08:23:56

25

4

我采样了一些地理轨迹进行分析，并计算了空间和时间维度上的数据直方图，从而为每个空间元素生成了基于时域的特征。我想执行一个离散的FFT，将基于时域的特征转换为基于频域的特征(我认为可能更健壮)，然后执行一些分类或聚类算法。

但是我不确定使用哪个描述符作为基于频域的功能，因为信号存在振幅谱，功率谱和相位谱，并且我已经阅读了一些引用文献，但对于其含义仍然感到困惑。在基于频域的特征向量上执行学习算法时，应使用什么距离(相似度)函数作为度量(欧几里得距离，余弦距离，高斯函数，Chi-kernel或其他？)

希望有人给我一个提示或一些我可以引用的 Material ，谢谢〜

编辑

感谢@DrKoch，我选择了一个最大L-1范数的空间元素，并用python绘制了它的log power spectrum，它确实显示了一些突出的峰，下面是我的代码和图

import numpy as np
import matplotlib.pyplot as plt
sp = np.fft.fft(signal)
freq = np.fft.fftfreq(signal.shape[-1], d = 1.) # time sloth of histogram is 1 hour
plt.plot(freq, np.log10(np.abs(sp) ** 2))
plt.show()

为了确保我完全理解您的建议，我有几个琐碎的问题要问:

在第二个建议中，您说“忽略所有这些值”。

您是说水平线代表阈值，低于该水平线的所有值都应分配为零值吗？

“您可以搜索两个，三个最大的峰，并使用它们的位置和宽度作为'特征'进行进一步分类。”

我对“位置”和“宽度”的含义有些困惑，“位置”是指功率谱的对数值(y轴)，“宽度”是指频率(x轴)吗？如果是这样，如何将它们组合为一个特征向量，并比较“相似频率和相似宽度”的两个特征向量？

编辑

我将 np.fft.fft替换为 np.fft.rfft来计算正部分，并绘制功率谱和对数功率谱。

代码:

f, axarr = plt.subplot(2, sharex = True)
axarr[0].plot(freq, np.abs(sp) ** 2)
axarr[1].plot(freq, np.log10(np.abs(sp) ** 2))
plt.show()

数字:

如果我错了，请纠正我:

我认为我应该用 power = np.abs(sp) ** 2和 power[power < threshold] = 0保持第一图的最后四个峰值，因为对数功率谱减小了每个组件之间的差异。然后使用新功率的对数谱作为特征向量来馈入分类器。

我还看到一些引用建议建议在执行fft之前应用窗口函数(例如Hamming窗口)以避免 频谱泄漏。我的原始数据每5到15秒采样一次，并且在采样时间上应用了直方图，该方法是否等同于应用窗口函数，还是我仍需要在直方图数据上应用它？

最佳答案

通常，您应该从整个FFT频谱中仅提取少量“功能”。

首先:使用对数功率规范。
在这种情况下，复数和相位是无用的，因为它们取决于您开始/停止数据获取的位置(在许多其他情况中)

第二:您会看到“噪音级别”，例如大多数值都在某个阈值以下，请忽略所有这些值。

第三:如果您很幸运，例如您的数据中包含一些谐波成分(循环，重复)，您将看到一些突出的峰。

如果有清晰的峰，则检测噪声甚至更容易:峰之间的所有东西都应视为噪声。

现在，您可以搜索两个，三个最大的峰，并将它们的位置以及可能的宽度用作“特征”以进行进一步的分类。

位置是峰值的x值，即“频率”。它说明输入数据中的循环有多“快”。

如果您的周期在测量间隔中不具有恒定的频率(或在计算FFT之前使用窗口)，则该峰将比一个箱宽。因此，峰的宽度说明了循环的“稳定性”。

基于此:如果两个最大峰值的频率相似且宽度相似，则两个模式相似。

编辑

非常有趣地看到您的示例之一的对数功率谱。

现在很明显，您的输入包含一个单个谐波(周期性，振荡)分量，其频率(重复频率，周期持续时间)约为f0 = 0.04。
(这是相对频率，与您的采样频率成正比，是各个测量点之间时间的倒数)

它不是普特正弦波，而是一些“有趣的”波形。这样的波形在1 * f0、2 * f0、3 * f0等处产生峰值。
(因此，使用FFT进行进一步分析是一个好主意)

在这一点上，您应该生成多个测量的光谱，并查看进行相似测量的原因以及不同测量之间的区别。区分您的测量的“重要”功能是什么？认为要注意:

绝对振幅:突出(最左侧，最高)峰的高度。

音高(主循环速率，变化速度):这是第一个峰的位置，即连续峰之间的距离。

精确波形:前几个峰值的相对幅度。

如果您最重要的功能是绝对振幅，那么最好计算输入信号的RMS(均方根)电平。

如果音调很重要，最好计算输入信号的ACF(自相关函数)。

不要专注于最左边的峰值，这些峰值来自您输入中的高频分量，并且其变化幅度与本底噪声一样大。

Windows

为了获得高质量的分析结果，在应用FFT之前将窗口应用于输入数据是很重要的。由于FFT将输入视为单个周期，因此这减少了输入矢量结束与输入矢量开始之间“跳跃”的影响。

有几个流行的窗口标记了不可避免的权衡的不同选择:单峰的精度与旁瓣的水平:

您选择了一个“矩形窗口”(相当于根本没有窗口，只需开始/停止测量)。这为您的峰提供了出色的精确度，而现在这些峰的宽度仅为一个 sample 。旁瓣(主峰左右的小峰)为-21dB，在给定输入数据的情况下是可以忍受的。对于您而言，这是一个绝佳的选择。

汉宁窗口是一个余弦波。它使您的峰值稍微宽一些，但降低了旁瓣水平。

Hammimg窗口(余弦波，略微升高到0.0以上)会产生更宽的峰值，但旁瓣的抑制幅度为-42 dB。如果您希望在主峰之间出现更弱(但很重要)的分量，或者一般来说如果您有语音，音乐等复杂信号，这是一个不错的选择。

编辑:缩放

频谱的正确缩放是一件复杂的事情，因为FFT线的值取决于采样率，FFT长度，窗口甚至FFT算法的实现细节(存在几种不同的接受约定)。

毕竟，FFT应该显示出潜在的能量守恒。输入信号的均方根值应与频谱的均方根值(能量)相同。

另一方面:如果用于分类，则足以维持相对振幅。只要上述参数不变，该结果即可用于分类而无需进一步缩放。

关于machine-learning - 哪些FFT描述符应用作实现分类或聚类算法的功能？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/27546476/

25

4

0

文章推荐： machine-learning - 使用神经网络进行音高检测

文章推荐： javascript - 显示嵌套的 JSON 数据

文章推荐： javascript - 如何在 reactjs 调用周围包装 handleClick

文章推荐： javascript - Promise.resolve 与 resolve

算法~利用zset实现滑动窗口限流
滑动窗口限流滑动窗口限流是一种常用的限流算法，通过维护一个固定大小的窗口，在单位时间内允许通过的请求次数不超过设定的阈值。具体来说，滑动窗口限流算法通常包括以下几个步骤：初始化：设置窗口
【算法】表达式求值
表达式求值：一个只有+,-,*,/的表达式，没有括号一种神奇的做法：使用数组存储数字和运算符，先把优先级别高的乘法和除法计算出来，再计算加法和减法 int GetVal(string s){
【算法】前缀和
【算法】前缀和题目先来看一道题目：（前缀和模板题）已知一个数组A[]，现在想要求出其中一些数字的和。输入格式：先是整数N,M，表示一共有N个数字，有M组询问接下来有N个数，表示A[1]..
【算法】二叉树的各种遍历方式
1.前序遍历根-左-右的顺序遍历，可以使用递归 void preOrder(Node *u){ if(u==NULL)return; printf("%d ",u->val);
【算法】01背包
先看题目物品不能分隔，必须全部取走或者留下，因此称为01背包（只有不取和取两种状态）看第一个样例我们需要把4个物品装入一个容量为10的背包我们可以简化问题，从小到大入手分析 weightva
算法 - 矩阵中被另一种颜色包围的颜色
我最近在一次采访中遇到了这个问题: 给出以下矩阵: [[ R R R R R R], [ R B B B R R], [ B R R R B B], [ R B R R R R]] 找出是否有任
使用Outlook发送电子邮件的C++算法
我正在尝试通过 C++ 算法从我的 outlook 帐户发送一封电子邮件，该帐户已经打开并记录，但真的不知道从哪里开始(对于 outlook-c++ 集成)，谷歌也没有帮我这么多。任何提示将不胜感激。
容器上滑动窗口的C++算法
我发现自己像这样编写了一个手工制作的 while 循环: std::list foo; // In my case, map, but list is simpler auto currentPoin
检测正方形后运行命令的c++算法
我有用于检测正方形的 opencv 代码。现在我想在检测正方形后，代码运行另一个命令。代码如下: #include "cv.h" #include "cxcore.h" #include "high
二值图像的泛洪填充C++算法
我正在尝试模拟一个 matlab 函数“imfill”来填充二进制图像(1 和 0 的二维矩阵)。我想在矩阵中指定一个起点，并像 imfill 的 4 连接版本那样进行洪水填充。这是否已经存在于
算法递归公式
我正在阅读 Robert Sedgewick 的《C++ 算法》。 Basic recurrences section it was mentioned as 这种循环出现在循环输入以消除一个项目的递
算法 - 如何生成日期结构？
我正在思考如何在我的日历中生成代表任务的数据结构(仅供我个人使用)。我有来自 DBMS 的按日期排序的任务记录，如下所示: 买牛奶(18.1.2013) 任务日期 (2013-01-15) 任务标签(
算法:查找恰好出现两次的元素
输入一个未排序的整数数组A[1..n]只有 O(d) :(d int) 计算每个元素在单次迭代中出现在列表中的次数。 map 是balanced Binary Search Tree基于确保 O(nl
算法——基于寻找最大匹配数
我遇到了一个问题，但我仍然不知道如何解决。我想出了如何用蛮力的方式来做到这一点，但是当有成千上万的元素时它就不起作用了。 Problem: Say you are given the followin
算法 - 用于计算成对相互出现的次数
我有一个列表列表。 L1= [[...][...][.......].......]如果我在展平列表后获取所有元素并从中提取唯一值，那么我会得到一个列表 L2。我有另一个列表 L3，它是 L2 的某个
算法 - 在矩阵中求和
我们得到二维矩阵数组(假设长度为 i 和宽度为 j)和整数 k我们必须找到包含这个或更大总和的最小矩形的大小F.e k=7 4 1 1 1 1 1 4 4 Anwser是2，因为4+4=8 >= 7，
算法:根据周数获取下一年日期工作类次类型
我实行 3 类倒制，每周换类。顺序为早类 (m)、晚类 (n) 和下午类 (a)。我固定的订单，即它永远不会改变，即使那个星期不工作也是如此。我创建了一个函数来获取 ISO 周数。当我给它一个日期时
算法 - 找到满足输入元素任意组合的所有集合
假设我们有一个输入，它是一个元素列表: {a, b, c, d, e, f} 还有不同的集合，可能包含这些元素的任意组合，也可能包含不在输入列表中的其他元素: A:{e,f} B:{d,f,a} C:
算法:添加新元素时如何找到集合的子集？
我有一个子集算法，可以找到给定集合的所有子集。原始集合的问题在于它是一个不断增长的集合，如果向其中添加元素，我需要再次重新计算它的子集。有没有一种方法可以优化子集算法，该算法可以从最后一个计算点重新
算法:按预期频率将符号压缩成位串？
我有一个包含 100 万个符号及其预期频率的表格。我想通过为每个符号分配一个唯一(且前缀唯一)的可变长度位串来压缩这些符号的序列，然后将它们连接在一起以表示序列。我想分配这些位串，以使编码序列的预

首页

博学

6Ren·AI

商城

machine-learning - 哪些FFT描述符应用作实现分类或聚类算法的功能？