主成分分析(PCA)介绍

转载作者：撒哈拉更新时间：2024-06-06 11:23:22

61

4

计算过程
投影分量计算

假设你有一家理发店,已经记录了过去一年中所有顾客的头发长度和发型偏好的数据。现在你想从这些数据中提取一些主要的信息,比如顾客最常选择的发型类型,以及不同发型之间的相关性等。这对于你未来开展有针对性的营销活动很有帮助.

具体来说,我们可以将每个顾客的发型偏好用一个多维向量来表示,每一维度对应一种发型类型的喜好程度(比如评分1-5分)。这样,所有顾客就形成了一个海量的、高维的数据集.

这时候,我们可以对这个数据集进行主成分分析(PCA)。PCA的核心就是找到数据的主要特征向量,即那些能够最大程度解释数据方差的方向向量.

例如,假设经过PCA分析,发现主要有两个显著的特征向量

第一个特征向量对应"时尚发型"这个主成分
第二个特征向量对应"保守发型"这个主成分

沿着这两个特征向量方向投影,就可以非常准确地还原出原始的高维数据.

这意味着,尽管原始数据有很多维度(发型类型),但是顾客的实际偏好可以用"时尚发型"和"保守发型"这两个主成分来概括和解释.

利用这两个主要特征向量,你可以

分析哪些具体发型类型属于时尚型或保守型
根据客户的偏好,将他们分成偏好时尚的群体和偏好保守的群体
针对不同群体制定不同的营销策略和发型组合

所以,通过PCA分析得到的特征向量,可以帮助我们从高维复杂的数据中提取出主要的信息,发现数据背后的内在结构和群体特征,从而指导后续的决策.

计算过程

一个主成分分析(PCA)的具体计算过程示例。我们继续用理发店的发型偏好数据作为例子.

假设我们有5个顾客,每个顾客对5种发型(A,B,C,D,E)的喜好程度用1-5分评分,数据如下

顾客1: [5, 4, 2, 1, 3]
顾客2: [4, 5, 1, 2, 3]
顾客3: [2, 1, 5, 4, 3]
顾客4: [1, 2, 4, 5, 2]
顾客5: [3, 3, 3, 3, 3]

我们的目标是找到能最大程度解释这些数据方差的主要特征向量。计算步骤如下

将原始数据矩阵X中心化(去均值),得到均值为0的矩阵
计算X的协方差矩阵: Σ = (1/n) * X^T * X (n为样本数)
计算协方差矩阵Σ的特征值和对应的特征向量
将特征向量按照对应的特征值大小从高到低排序
选取前k个最大的特征值对应的特征向量作为主成分

具体计算

去均值后的X矩阵为:

   [2   1 -1 -2   0 ]
   [1   2 -2 -1   0 ]
   [-1 -2  2  1   0 ]
   [-2 -1  1  2  -1 ]
   [0   0  0  0   0 ]

计算协方差矩阵Σ:

   [3.2  0.8 -0.8 -0.8 -0.8]
   [0.8  3.2 -0.8 -0.8 -0.8]
   [-0.8 -0.8  3.2  0.8  0.8]
   [-0.8 -0.8  0.8  3.2  0.8]
   [-0.8 -0.8  0.8  0.8  0.8]

计算Σ的特征值和对应特征向量(略去具体过程): 特征值1 = 6.828, 对应特征向量v1 = [0.456, 0.456, -0.456, -0.456, -0.364] 特征值2 = 2.172, 对应特征向量v2 = [0.556, -0.282, -0.282, 0.718, 0.166] ... 。
由于前两个特征值最大,所以选取v1和v2作为主成分。
v1对应"时尚发型"的主成分, v2主要对应"保守发型" 。

通过将原始5维数据投影到由v1和v2张成的2维空间,就能很好地概括原始数据的主要模式和差异。通过矩阵运算来计算每个数据点在v1和v2方向上的投影分量.

投影分量计算

原始的5维数据为X = (x1, x2, x3, x4, x5)，其中x1-x5分别是顾客对5种发型的评分.

现在我们想将X投影到由v1和v2张成的2维平面上,可以通过下面的矩阵运算: X' = [v1 v2]T * X 。

其中

v1 = [0.456, 0.456, -0.456, -0.456, -0.364]
v2 = [0.556, -0.282, -0.282, 0.718, 0.166 ]
[v1 v2]T 是一个2x5的矩阵,每行就是v1和v2 , T表示矩阵的转置(Transpose)运算
X是原始5维数据
X'是投影后的2维数据

具体运算就是

先将v1和v2并列成一个2x5矩阵
将X当成一个5x1的列向量
通过矩阵乘法 [v1 v2]T * X 得到结果X'
计算的结果X' = (x1', x2')是一个2x1的向量,其中x1'就是X在v1方向的投影分量,x2'就是X在v2方向的投影分量。

通过这样的矩阵投影运算,我们就能将任意一个原始5维数据X,映射到一个二维坐标点(x1',x2')上.

不同顾客对应的二维坐标点(x1',x2')分布在2D平面上,散点分布的模式就能很好地展示

在v1(时尚发型)方向投影大的点,代表偏好时尚发型；
在v2(保守发型)方向投影大的点,代表偏好保守发型；
在两个方向上都投影值较小的点,代表比较中性的顾客；

这种将原始高维数据投影到主成分2维平面的方法，我们既降低了维度,又能很好地保留和展示数据中的主要模式和差异信息,这正是PCA的精髓所在.

这个例子展示了如何通过PCA的数学计算过程,从复杂数据中发现主要的特征向量,并利用它们提取主成分信息.

最后此篇关于主成分分析(PCA)介绍的文章就讲到这里了,如果你想了解更多关于主成分分析(PCA)介绍的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

61

4

0

文章推荐： GithubFork仓库的冲突与同步管理

文章推荐：算法金|再见！！！KNN

文章推荐：【设计模式】观察者模式

文章推荐： SemanticKernel：添加插件

pca - 使用 PCA 的边界框
我尝试用 PCA 构建一个定向边界框。在图片中您可以看到我的结果: 红点:点云蓝色向量:PCA 分量我尝试将点投影到向量上，以获得最小值、最大值和平均值。但是我现在如何定义我的盒子呢？有什么想法
java - PCA pca = 新PCA
我们如何将 PCA 应用于一维数组？ double[][] data = new double [1][600]; PCA pca = new PCA(data, 20); data = pca.ge
pca - 什么时候使用 ICA 而不是 PCA？
我知道PCA和ICA都用于降维，并且在PCA中主成分是正交的(不一定独立)，但在ICA中它们是独立的。有人能澄清一下什么时候使用 ICA 而不是 PCA 更好吗？最佳答案 ICA 不是一种降维技术。
pca - scikit-learning 如何对 libsvm 格式的稀疏数据执行 PCA？
我正在使用 scikit-learning 做一些降维任务。我的训练/测试数据采用 libsvm 格式。它是一个有 50 万列的大型稀疏矩阵。我使用 load_svmlight_file 函数加载
python - PCA 与 sklearn。无法使用 PCA 找出特征选择
我一直在尝试使用 PCA 进行降维。我目前有一个大小为 (100, 100) 的图像，我正在使用一个由 140 个 Gabor 滤波器组成的滤波器组，其中每个滤波器都会给我一个响应，这又是一个 (10
python - sklearn 上的 PCA - 如何解释 pca.components_
我使用以下简单代码在具有 10 个特征的数据框上运行 PCA: pca = PCA() fit = pca.fit(dfPca) pca.explained_variance_ratio_ 的结果显示
python - Orange PCA 和 scikit-learn PCA 之间的不同结果
我正在使用 scikit-learn PCA查找具有大约 20000 个特征和 400 多个样本的数据集的主要成分。但是，与Orange3 PCA相比应该使用 scikit-learn PCA，我得
python - Sklearn PCA 是 pca.components_ 的 loadings？
Sklearn PCA 是 pca.components_ 的 loadings？我很确定是这样，但我正在尝试遵循一篇研究论文，但我从他们的加载中得到了不同的结果。我在 sklearn 文档中找不到它
r - R 中的 PCA 使用 caret 包与 prcomp PCA
我有一个包含 50 多个变量的数据框 data，我正在尝试使用 caret 包在 R 中执行 PCA。 library(caret) library(e1071) trans <- preProces
python - 如何使用 Robust PCA 输出作为传统 PCA 的主成分(特征)向量
我正在使用 PCA 来降低 N 维数据集的维数，但我想增强对大异常值的稳健性，因此我一直在研究 Robust PCA 代码。对于传统的 PCA，我使用的是 python 的 sklearn.deco
apache-spark - Pyspark 和 PCA : How can I extract the eigenvectors of this PCA? 如何计算它们解释的方差？
我正在降低 Spark DataFrame 的维度与 PCA带有 pyspark 的模型(使用 spark ml 库)如下: pca = PCA(k=3, inputCol="features", o
python - 使用 python 的 sklearn 和 matlab 的 pca 的 PCA 的不同结果
我在 matlab 和 python 中生成相同的矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 13
聊聊基于Alink库的主成分分析(PCA)
概述主成分分析（Principal Component Analysis，PCA）是一种常用的数据降维和特征提取技术，用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为
主成分分析(PCA)介绍
目录计算过程投影分量计算假设你有一家理发店,已经记录了过去一年中所有顾客的头发长度和发型偏好的数据。现在你想从这些数据中提取一些主要的信息,比如顾客最常
python - 我是否必须分别为训练和测试数据做拟合 PCA
我正在考虑使用 PCA(TruncatedSVD) 来减少我的稀疏矩阵的维数。我将我的数据拆分为训练和测试拆分。 X_train , X_test, y_train, y_test = train_
r - 如何对具有多个组的数据集对每个组进行 PCA？
我有来自四个群体、四个处理和三个重复的个体数据集。每个个体仅在一个群体、处理和重复组合中。我对每个人进行了四次测量。我想对每个种群、底物和重复组合的这些测量进行 PCA。我知道如何对所有个体进行 P
python - PCA - 取平均值的差异
在考虑均值时，数字 1 和 2 背后的直觉是什么？这将如何影响性能和准确性？ 1号: pca = decomposition.PCA(n_components=4) X_centere
Scikit-Learn PCA
我正在使用来自 here 的输入数据(见第 3.1 节)。我正在尝试使用 scikit-learn 重现它们的协方差矩阵、特征值和特征向量。但是，我无法重现数据源中显示的结果。我也在别处看到过这个输
r - pca - 哪个特征向量对应于哪个特征值
我要做的事情如下:我有一套 Vektors v1-vn对于这些，我需要协方差矩阵(我在做 pca 时得到的)。我还需要协方差矩阵的特征值和特征向量。我按降序对特征值进行排序，然后根据相应的特征值对特征
OpenCV PCA 不可初始化
给定 http://docs.opencv.org/modules/core/doc/operations_on_arrays.html PCA 应该可以通过传递一个矩阵来初始化。 cv::Mat m

首页

博学

6Ren·AI

商城

主成分分析(PCA)介绍

计算过程

投影分量计算