【数学】主成分分析（PCA）的详细深度推导过程-6ren

【数学】主成分分析（PCA）的详细深度推导过程

转载作者：撒哈拉更新时间：2024-04-23 16:07:27

58

4

Based on Deep Learning (2017, MIT) book. 。

本文基于Deep Learning (2017, MIT)，推导过程补全了所涉及的知识及书中推导过程中跳跃和省略的部分。 blog 。

1 概述

现代数据集，如网络索引、高分辨率图像、气象学、实验测量等，通常包含高维特征，高纬度的数据可能不清晰、冗余，甚至具有误导性。数据可视化和解释变量之间的关系很困难，而使用这种高维数据训练的神经网络模型往往容易出现过拟合（维度诅咒）。主成分分析（PCA）是一种简单而强大的无监督机器学习技术，用于数据降维。它旨在从大型变量集中提取一个较小的数据集，同时尽可能保留原始信息和特征（有损压缩）。PCA有助于识别数据集中最显著和有意义的特征，使数据易于可视化。应用场景包括：统计学、去噪和为机器学习算法预处理数据.

主成分是什么？
主成分是构建为原始变量的线性组合的新变量。这些新变量是不相关的，并且包含原始数据中大部分的信息。

2 背景数学知识

这些知识对下一节的推导很重要.

正交向量和矩阵：
- 如果两个向量垂直，则它们是正交的。即两个向量的点积为零。
- 正交矩阵是一个方阵，其行和列是相互正交的单位向量；每两行和两列的点积为零，每一行和每一列的大小为1。
- 如果\(A^T=A^{-1}\)或\(AA^T=A^TA=I\)，则\(A\)是正交矩阵。
- 在机器人学中，旋转矩阵通常是一个\(3\times3\)的正交矩阵，在空间变换中它会旋转向量的方向但保持原始向量的大小。
矩阵、向量乘法规则：
- \((AB)^T=B^TA^T\)，两个矩阵的乘积的转置。
- \(\vec{a}^T\vec{b}=\vec{b}^T\vec{a}\)，两个结果都是标量，标量的转置是相同的。
- \((A + B)C = AC + BC\)，乘法是可分配的。
- \(AB \neq{} BA\)，乘法一般不满足交换律。
- \(A(BC)=(AB)C\)，乘法满足结合律。
对称矩阵：
- \(A=A^T\)，\(A\)是对称矩阵。
- \(X^TX\)是对称矩阵，因为\((X^TX)^T=X^TX\)。
向量导数规则（\(B\)是常量矩阵）：
- \(d(x^TB)/dx=B\)
- \(d(x^Tx)/dx=2x\)
- \(d(x^TBx)/dx=2Bx\)
矩阵迹规则：
- \(Tr(A)=Tr(A^T)\)
- \(Tr(AB)=Tr(BA)\)
- \(Tr(A)=\sum_i{\lambda_i}\)，其中\(\lambda\)是\(A\)的特征值。
- 迹在循环移位下不变：\(Tr(ABCD)=Tr(BCDA)=Tr(CDAB)=Tr(DABC)\)
向量和矩阵范数：
- 向量的\(L^2\)范数，也称为欧几里得范数：\(||x||_2=\sqrt{\sum_i|x_i|^2}\)。
- 通常使用平方的\(L^2\)范数来衡量向量的大小，可以计算为\(x^Tx\)。
- Frobenius范数用于衡量矩阵的大小：\(||A||_F=\sqrt{\sum_{i,j}A^2_{i,j}}\)
- Frobenius范数是所有矩阵元素的绝对平方和的平方根。
- Frobenius范数是矩阵版本的欧几里得范数。
特征值分解和特征值：
- 方阵\(A\)的特征向量是一个非零向量\(v\)，使得\(A\)的乘法仅改变\(v\)的比例：\(Av=\lambda v\)。\(\lambda\)是特征值，\(v\)是特征向量。
- 假设矩阵\(A\)有\(n\)个线性无关的特征向量\(v^{(i)}\)，我们可以将所有特征向量连接起来形成一个矩阵\(V=[v^{(1)},\ldots,v^{(n)}]\)，并通过连接所有特征值\(\lambda=[\lambda_1,\ldots,\lambda_n]^T\)形成一个向量，那么\(A\)的特征分解是\(A=Vdiag(\lambda)V^{-1}\)
- 每个实对称矩阵都可以分解为\(A=Q\Lambda Q^T\)，其中\(Q\)是由\(A\)的特征向量组成的正交矩阵，\(\Lambda\)（读作'lambda'）是一个对角矩阵。
拉格朗日乘数法：
- 拉格朗日乘数法是一种在方程约束下寻找函数局部最大值和最小值的策略。
- 一般形式：\(\mathcal{L}(x,\lambda)=f(x)+\lambda\cdot g(x)\)，\(\lambda\)称为拉格朗日乘子。

3 详细PCA推导

需求描述。

我们有\(m\)个点的输入数据，表示为\({x^{(1)},...,x^{(m)}}\)在\(\mathbb{R}^{n}\)的实数集中。因此，每个点\(x^{(i)}\)是一个列向量，具有\(n\)维特征.

需要对输入数据进行有损压缩，将这些点编码以表示它们的较低维度版本。换句话说，我们想要找到编码向量\(c^{(i)}\in \mathbb{R}^{l}\)，\((l<n)\)来表示每个输入点\(x^{(i)}\)。我们的目标是找到产生输入的编码向量的编码函数\(f(x)=c\)，以及相应的重构（解码）函数\(x\approx g(f(x))\)，根据编码向量\(c\)计算原始输入.

解码的\(g(f(x))\)是一组新的点（变量），因此它与原始\(x\)是近似的。存储\(c^{(i)}\)和解码函数比存储\(x^{(i)}\)更节省空间，因为\(c^{(i)}\)的维度较低.

解码矩阵。

我们选择使用矩阵\(D\)作为解码矩阵，将编码向量\(c^{(i)}\)映射回\(\mathbb{R}^{n}\)，因此\(g(c)=Dc\)，其中\(D\in \mathbb{R}^{n\times l}\)。为了简化编码问题，PCA将\(D\)的列约束为彼此正交.

衡量重构的表现。

在继续之前，我们需要弄清楚如何生成最优的编码点\(c^{*}\)，我们可以测量输入点\(x\)与其重构\(g(c^*)\)之间的距离，使用\(L^2\)范数（或欧几里得范数）：\(c^{*}=\arg\min_c||x-g(c)||_2\)。由于\(L^2\)范数是非负的，并且平方操作是单调递增的，所以我们可以转而使用平方的\(L^2\)范数:

\[c^{*}={\arg\min}_c||x-g(c)||_2^2 \]

向量的\(L^2\)范数是其分量的平方和，它等于向量与自身的点积，例如\(||x||_2=\sqrt{\sum|x_i|^2}=\sqrt{x^Tx}\)，因此平方的\(L^2\)范数可以写成以下形式:

\[||x-g(c)||_2^2 = (x-g(c))^T(x-g(c)) \]

由分配率:

\[=(x^T-g(c)^T)(x-g(c))=x^Tx-x^Tg(c)-g(c)^Tx+g(c)^Tg(c) \]

由于\(x^Tg(c)\)和\(g(c)^Tx\)是标量，标量等于其转置，\((g(c)^Tx)^T=x^Tg(c)\)，所以:

\[=x^Tx-2x^Tg(c)+g(c)^Tg(c) \]

为了找到使上述函数最小化的\(c\)，第一项可以省略，因为它不依赖于\(c\)，所以:

\[c^*={\arg\min}_c-2x^Tg(c)+g(c)^Tg(c) \]

然后用\(g(c)\)的定义\(Dc\)进行替换:

\[={\arg\min}_c-2x^TDc+c^TD^TDc \]

由于\(D\)的正交性和单位范数约束:

\[c^*={\arg\min}_c-2x^TDc+c^TI_lc \]

\[= {\arg\min}_c-2x^TDc+c^Tc \]

目标函数。

现在目标函数是\(-2x^TDc+c^Tc\)，我们需要找到\(c^*\)来最小化目标函数。使用向量微积分，并令其导数等于0:

\[\nabla_c(-2x^TDc+c^Tc)=0 \]

根据向量导数规则:

\[-2D^Tx+2c=0 \Rightarrow c=D^Tx \]

找到编码矩阵 \(D\) 。

所以编码器函数是 \(f(x)=D^Tx\)。因此我们可以定义 PCA 重构操作为 \(r(x)=g(f(x))=D(D^Tx)=DD^Tx\).

因此编码矩阵 \(D\) 也被重构过程使用。我们需要找到最优的 \(D\) 来最小化重构误差，即输入和重构之间所有维度特征的距离。这里使用 Frobenius 范数（矩阵范数）定义目标函数:

\[D^*={\arg\min}_D\sqrt{\sum_{i,j}(x_j^{(i)}-r(x^{i})_j)^2},\quad D^TD=I_l \]

从考虑 \(l=1\) 的情况开始（这也是第一个主成分），\(D\) 是一个单一向量 \(d\)，并使用平方 \(L^2\) 范数形式:

\[d^*={\arg\min}_d{\sum_{i}||(x^{(i)}-r(x^{i}))}||_2^2, ||d||_2=1 \]

\[= {\arg\min}_d{\sum_{i}||(x^{(i)}-dd^Tx^{(i)})||_2^2}, ||d||_2=1 \]

\(d^Tx^{(i)}\) 是一个标量:

\[= {\arg\min}_d{\sum_{i}||(x^{(i)}-d^Tx^{(i)}d)}||_2^2, ||d||_2=1 \]

标量等于其自身的转置:

\[d^*= {\arg\min}_d{\sum_{i}||(x^{(i)}-x^{(i)T}dd)}||_2^2, ||d||_2=1 \]

使用矩阵形式表示。

令 \(X\in \mathbb{R}^{m\times n}\) 表示所有描述点的向量堆叠，即 \(\{x^{(1)^T}, x^{(2)^T}, \ldots, x^{(i)^T}, \ldots, x^{(m)^T}\}\)，使得 \(X_{i,:}=x^{(i)^T}\).

\[X = \begin{bmatrix} x^{(1)^T}\\ x^{(2)^T}\\ \ldots\\ x^{(m)^T} \end{bmatrix} \Rightarrow Xd = \begin{bmatrix} x^{(1)^T}d\\ x^{(2)^T}d\\ \ldots\\ x^{(m)^T}d \end{bmatrix} \]

\[\Rightarrow Xdd^T = \begin{bmatrix} x^{(1)^T}dd^T\\ x^{(2)^T}dd^T\\ \ldots\\ x^{(m)^T}dd^T\\ \end{bmatrix} \]

\[\Rightarrow X-Xdd^T = \begin{bmatrix} x^{(1)^T}-x^{(1)^T}dd^T\\ x^{(2)^T}-x^{(2)^T}dd^T\\ \ldots\\ x^{(m)^T}-x^{(m)^T}dd^T\\ \end{bmatrix} \]

矩阵中的一行的转置:

\[(x^{(i)^T}-x^{(i)^T}dd^T)^T=x^{(i)}-dd^Tx^{(i)} \]

由于 \(d^Tx^{(i)}\) 是标量:

\[=x^{(i)}-d^Tx^{(i)}d=x^{(i)}-x^{(i)^T}dd \]

所以我们知道 \(X\) 的第 \(i\) 行的 \(L^2\) 范数与原始形式相同，因此我们可以使用矩阵重写问题，并省略求和符号:

\[d^*={\arg\min}_{d}||X-Xdd^T||_F^2, \quad d^Td=1 \]

利用矩阵迹规则简化 Frobenius 范数部分如下:

\[{\arg\min}_{d}||X-Xdd^T||_F^2 \]

\[={\arg\min}_{d}Tr((X-Xdd^T)^T(X-Xdd^T)) \]

\[={\arg\min}_{d}-Tr(X^TXdd^T)-Tr(dd^TX^TX)+Tr(dd^TX^TXdd^T) \]

\[={\arg\min}_{d}-2Tr(X^TXdd^T)+Tr(X^TXdd^Tdd^T) \]

由于 \(d^Td=1\):

\[={\arg\min}_{d}-2Tr(X^TXdd^T)+Tr(X^TXdd^T) \]

\[={\arg\min}_{d}-Tr(X^TXdd^T) \]

\[={\arg\max}_{d}Tr(X^TXdd^T) \]

由于迹是循环置换不变的，将方程重写为:

\[d^*={\arg\max}_{d}Tr(d^TX^TXd), \quad d^Td=1 \]

由于 \(d^TX^TXd\) 是实数，因此迹符号可以省略:

\[d^*={\arg\max}_{d}d^TX^TXd,\quad d^Td=1 \]

寻找最优的 \(d\) 。

现在的问题是找到最优的 \(d\) 来最大化 \(d^TX^TXd\)，并且有约束条件 \(d^Td=1\).

使用拉格朗日乘子法来将问题描述为关于 \(d\) 的形式:

\[\mathcal{L}(d,\lambda)=d^TX^TXd+\lambda(d^Td-1) \]

对 \(d\) 求导数（向量导数规则）:

\[\nabla_d\mathcal{L}(d,\lambda)=2X^TXd+2\lambda d \]

令导数等于0，\(d\) 将是最优的:

\[2X^TXd+2\lambda d=0 \]

\[X^TXd=-\lambda d \]

\[X^TXd=\lambda' d,\quad(\lambda'=-\lambda) \]

这个方程是典型的矩阵特征值分解形式，\(d\) 是矩阵 \(X^TX\) 的特征向量，\(\lambda'\) 是对应的特征值.

利用上述结果，让我们重新审视原方程:

\[d^*={\arg\max}_{d}d^TX^TXd, \quad d^Td=1 \]

\[={\arg\max}_{d}d^T\lambda' d \]

\[={\arg\max}_{d}\lambda'd^T d \]

\[={\arg\max}_{d}\lambda' \]

现在问题已经变的非常清楚了，\(X^TX\) 的最大特征值会最大化原方程的结果，因此最优的 \(d\) 是矩阵 \(X^TX\) 对应最大特征值的特征向量.

这个推导是针对 \(l=1\) 的情况，只包含第一个主成分。当 \(l>1\) 时，\(D=[d_1, d_2, \ldots]\)，第一个主成分 \(d_1\) 是矩阵 \(X^TX\) 对应最大特征值的特征向量，第二个主成分 \(d_2\) 是对应第二大特征值的特征向量，以此类推.

4 总结

我们有一个数据集，包含 \(m\) 个点，记为 \({x^{(1)},...,x^{(m)}}\)。令 \(X\in \mathbb{R}^{m\times n}\) 为将所有这些点堆叠而成的矩阵：\([x^{(1)^T}, x^{(2)^T}, \ldots, x^{(i)^T}, \ldots, x^{(m)^T}]\).

主成分分析（PCA）编码函数表示为 \(f(x)=D^Tx\)，重构函数表示为 \(x\approx g(c)=Dc\)，其中 \(D=[d_1, d_2, \ldots]\) 的列是 \(X^TX\) 的特征向量，特征向量对应的特征值大小为降序排列。\(D^Tx\)即是降维度之后的数据.

最后此篇关于【数学】主成分分析（PCA）的详细深度推导过程的文章就讲到这里了,如果你想了解更多关于【数学】主成分分析（PCA）的详细深度推导过程的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

58

4

0

文章推荐：欢迎Llama3：Meta的新一代开源大语言模型

文章推荐： Web3开发者技术选型：前端视角(next.js)

文章推荐： C#S7.NET实现西门子PLCDB块数据采集的完整步骤

文章推荐：分类算法（ClassificationAlgorithm）需求记录

pca - 使用 PCA 的边界框
我尝试用 PCA 构建一个定向边界框。在图片中您可以看到我的结果: 红点:点云蓝色向量:PCA 分量我尝试将点投影到向量上，以获得最小值、最大值和平均值。但是我现在如何定义我的盒子呢？有什么想法
java - PCA pca = 新PCA
我们如何将 PCA 应用于一维数组？ double[][] data = new double [1][600]; PCA pca = new PCA(data, 20); data = pca.ge
pca - 什么时候使用 ICA 而不是 PCA？
我知道PCA和ICA都用于降维，并且在PCA中主成分是正交的(不一定独立)，但在ICA中它们是独立的。有人能澄清一下什么时候使用 ICA 而不是 PCA 更好吗？最佳答案 ICA 不是一种降维技术。
pca - scikit-learning 如何对 libsvm 格式的稀疏数据执行 PCA？
我正在使用 scikit-learning 做一些降维任务。我的训练/测试数据采用 libsvm 格式。它是一个有 50 万列的大型稀疏矩阵。我使用 load_svmlight_file 函数加载
python - PCA 与 sklearn。无法使用 PCA 找出特征选择
我一直在尝试使用 PCA 进行降维。我目前有一个大小为 (100, 100) 的图像，我正在使用一个由 140 个 Gabor 滤波器组成的滤波器组，其中每个滤波器都会给我一个响应，这又是一个 (10
python - sklearn 上的 PCA - 如何解释 pca.components_
我使用以下简单代码在具有 10 个特征的数据框上运行 PCA: pca = PCA() fit = pca.fit(dfPca) pca.explained_variance_ratio_ 的结果显示
python - Orange PCA 和 scikit-learn PCA 之间的不同结果
我正在使用 scikit-learn PCA查找具有大约 20000 个特征和 400 多个样本的数据集的主要成分。但是，与Orange3 PCA相比应该使用 scikit-learn PCA，我得
python - Sklearn PCA 是 pca.components_ 的 loadings？
Sklearn PCA 是 pca.components_ 的 loadings？我很确定是这样，但我正在尝试遵循一篇研究论文，但我从他们的加载中得到了不同的结果。我在 sklearn 文档中找不到它
r - R 中的 PCA 使用 caret 包与 prcomp PCA
我有一个包含 50 多个变量的数据框 data，我正在尝试使用 caret 包在 R 中执行 PCA。 library(caret) library(e1071) trans <- preProces
python - 如何使用 Robust PCA 输出作为传统 PCA 的主成分(特征)向量
我正在使用 PCA 来降低 N 维数据集的维数，但我想增强对大异常值的稳健性，因此我一直在研究 Robust PCA 代码。对于传统的 PCA，我使用的是 python 的 sklearn.deco
apache-spark - Pyspark 和 PCA : How can I extract the eigenvectors of this PCA? 如何计算它们解释的方差？
我正在降低 Spark DataFrame 的维度与 PCA带有 pyspark 的模型(使用 spark ml 库)如下: pca = PCA(k=3, inputCol="features", o
python - 使用 python 的 sklearn 和 matlab 的 pca 的 PCA 的不同结果
我在 matlab 和 python 中生成相同的矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 13
聊聊基于Alink库的主成分分析(PCA)
概述主成分分析（Principal Component Analysis，PCA）是一种常用的数据降维和特征提取技术，用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为
主成分分析(PCA)介绍
目录计算过程投影分量计算假设你有一家理发店,已经记录了过去一年中所有顾客的头发长度和发型偏好的数据。现在你想从这些数据中提取一些主要的信息,比如顾客最常
python - 我是否必须分别为训练和测试数据做拟合 PCA
我正在考虑使用 PCA(TruncatedSVD) 来减少我的稀疏矩阵的维数。我将我的数据拆分为训练和测试拆分。 X_train , X_test, y_train, y_test = train_
r - 如何对具有多个组的数据集对每个组进行 PCA？
我有来自四个群体、四个处理和三个重复的个体数据集。每个个体仅在一个群体、处理和重复组合中。我对每个人进行了四次测量。我想对每个种群、底物和重复组合的这些测量进行 PCA。我知道如何对所有个体进行 P
python - PCA - 取平均值的差异
在考虑均值时，数字 1 和 2 背后的直觉是什么？这将如何影响性能和准确性？ 1号: pca = decomposition.PCA(n_components=4) X_centere
Scikit-Learn PCA
我正在使用来自 here 的输入数据(见第 3.1 节)。我正在尝试使用 scikit-learn 重现它们的协方差矩阵、特征值和特征向量。但是，我无法重现数据源中显示的结果。我也在别处看到过这个输
r - pca - 哪个特征向量对应于哪个特征值
我要做的事情如下:我有一套 Vektors v1-vn对于这些，我需要协方差矩阵(我在做 pca 时得到的)。我还需要协方差矩阵的特征值和特征向量。我按降序对特征值进行排序，然后根据相应的特征值对特征
OpenCV PCA 不可初始化
给定 http://docs.opencv.org/modules/core/doc/operations_on_arrays.html PCA 应该可以通过传递一个矩阵来初始化。 cv::Mat m

首页

博学

6Ren·AI

商城