python - 对于 kmeans 散点图，PCA 输出看起来很奇怪-6ren

python - 对于 kmeans 散点图，PCA 输出看起来很奇怪

转载作者：太空狗更新时间：2023-10-30 02:59:39

24

4

在对我的数据进行 PCA 并绘制 kmeans 聚类图之后，我的图看起来真的很奇怪。簇的中心和点的散点图对我来说没有意义。这是我的代码:

#clicks, conversion, bounce and search are lists of values.
clicks=[2,0,0,8,7,...]
conversion = [1,0,0,6,0...]
bounce = [2,4,5,0,1....]

X = np.array([clicks,conversion, bounce]).T
y = np.array(search)

num_clusters = 5

pca=PCA(n_components=2, whiten=True)
data2D = pca.fit_transform(X)

print data2D
    >>> [[-0.07187948 -0.17784291]
     [-0.07173769 -0.26868727]
     [-0.07173789 -0.26867958]
     ..., 
     [-0.06942414 -0.25040886]
     [-0.06950897 -0.19591147]
     [-0.07172973 -0.2687937 ]]

km = KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit_transform(X)

labels=km.labels_
centers2D = pca.fit_transform(km.cluster_centers_)

colors=['#000000','#FFFFFF','#FF0000','#00FF00','#0000FF']
col_map=dict(zip(set(labels),colors))
label_color = [col_map[l] for l in labels]

plt.scatter( data2D[:,0], data2D[:,1], c=label_color)
plt.hold(True)
plt.scatter(centers2D[:,0], centers2D[:,1],  marker='x', c='r')
plt.show()

红色十字是集群的中心。任何帮助都会很棒。 enter image description here

最佳答案

您对 PCA 和 KMeans 的排序把事情搞砸了...

这是您需要做的:

规范化您的数据。
对 X 执行 PCA 以将维度从 5 减少到 2 并生成 Data2D
再次正常化
集群 Data2D 与 KMeans
在Data2D 之上绘制质心。

这里是你在上面所做的:

对 X 执行 PCA 以将维度从 5 减少到 2 以生成 Data2D
在 5 个维度上对原始数据 X 进行聚类。
对您的簇质心执行单独的 PCA，这会为质心生成完全不同的 2D 子空间。
绘制 PCA 缩减 Data2D 和 PCA 缩减质心在顶部，即使它们不再正确耦合。

规范化:

看看下面的代码，您会发现它把质心放在了它们需要的位置。标准化是关键并且是完全可逆的。聚类时始终规范化数据，因为距离指标需要在所有空间中均等地移动。聚类是规范化数据的最重要时期之一，但总的来说......总是规范化 :-)

超越原始问题的启发式讨论:

降维的全部目的是使 KMeans 聚类更容易，并转换出不会增加数据方差的维度。所以你应该将减少的数据传递给你的聚类算法。我要补充一点，很少有 5D 数据集可以向下投影到 2D 而不会丢掉很多方差，即查看 PCA 诊断以查看是否保留了 90% 的原始方差。如果不是，那么您可能不想在 PCA 中如此激进。

新代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import seaborn as sns
%matplotlib inline

# read your data, replace 'stackoverflow.csv' with your file path
df = pd.read_csv('/Users/angus/Desktop/Downloads/stackoverflow.csv', usecols[0, 2, 4],names=['freq', 'visit_length', 'conversion_cnt'],header=0).dropna()

df.describe()

#Normalize the data
df_norm = (df - df.mean()) / (df.max() - df.min())

num_clusters = 5

pca=PCA(n_components=2)
UnNormdata2D = pca.fit_transform(df_norm)

# Check the resulting varience
var = pca.explained_variance_ratio_
print "Varience after PCA: ",var

#Normalize again following PCA: data2D
data2D = (UnNormdata2D - UnNormdata2D.mean()) / (UnNormdata2D.max()-UnNormdata2D.min())

print "Data2D: "
print data2D

km = KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit_transform(data2D)

labels=km.labels_
centers2D = km.cluster_centers_

colors=['#000000','#FFFFFF','#FF0000','#00FF00','#0000FF']
col_map=dict(zip(set(labels),colors))
label_color = [col_map[l] for l in labels]

plt.scatter( data2D[:,0], data2D[:,1], c=label_color)
plt.hold(True)
plt.scatter(centers2D[:,0], centers2D[:,1],marker='x',s=150.0,color='purple')
plt.show()

情节:

plot from code above

输出:

Varience after PCA:  [ 0.65725709  0.29875307]
Data2D: 
[[-0.00338421 -0.0009403 ]
[-0.00512081 -0.00095038]
[-0.00512081 -0.00095038]
..., 
[-0.00477349 -0.00094836]
[-0.00373153 -0.00094232]
[-0.00512081 -0.00095038]]
Initialization complete
Iteration  0, inertia 51.225
Iteration  1, inertia 38.597
Iteration  2, inertia 36.837
...
...
Converged at iteration 31

希望这对您有所帮助!

关于python - 对于 kmeans 散点图，PCA 输出看起来很奇怪，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31150982/

24

4

0

文章推荐： javascript - 如何使用 Python 在 HTML 本地存储中设置数据？

文章推荐： python - lxml的E-factory是否支持动态生成数据？

文章推荐： python - 导入 Glib 时出错

文章推荐： python - migrations.RunPython 可以运行任意 python 代码吗？

pca - 使用 PCA 的边界框
我尝试用 PCA 构建一个定向边界框。在图片中您可以看到我的结果: 红点:点云蓝色向量:PCA 分量我尝试将点投影到向量上，以获得最小值、最大值和平均值。但是我现在如何定义我的盒子呢？有什么想法
java - PCA pca = 新PCA
我们如何将 PCA 应用于一维数组？ double[][] data = new double [1][600]; PCA pca = new PCA(data, 20); data = pca.ge
pca - 什么时候使用 ICA 而不是 PCA？
我知道PCA和ICA都用于降维，并且在PCA中主成分是正交的(不一定独立)，但在ICA中它们是独立的。有人能澄清一下什么时候使用 ICA 而不是 PCA 更好吗？最佳答案 ICA 不是一种降维技术。
pca - scikit-learning 如何对 libsvm 格式的稀疏数据执行 PCA？
我正在使用 scikit-learning 做一些降维任务。我的训练/测试数据采用 libsvm 格式。它是一个有 50 万列的大型稀疏矩阵。我使用 load_svmlight_file 函数加载
python - PCA 与 sklearn。无法使用 PCA 找出特征选择
我一直在尝试使用 PCA 进行降维。我目前有一个大小为 (100, 100) 的图像，我正在使用一个由 140 个 Gabor 滤波器组成的滤波器组，其中每个滤波器都会给我一个响应，这又是一个 (10
python - sklearn 上的 PCA - 如何解释 pca.components_
我使用以下简单代码在具有 10 个特征的数据框上运行 PCA: pca = PCA() fit = pca.fit(dfPca) pca.explained_variance_ratio_ 的结果显示
python - Orange PCA 和 scikit-learn PCA 之间的不同结果
我正在使用 scikit-learn PCA查找具有大约 20000 个特征和 400 多个样本的数据集的主要成分。但是，与Orange3 PCA相比应该使用 scikit-learn PCA，我得
python - Sklearn PCA 是 pca.components_ 的 loadings？
Sklearn PCA 是 pca.components_ 的 loadings？我很确定是这样，但我正在尝试遵循一篇研究论文，但我从他们的加载中得到了不同的结果。我在 sklearn 文档中找不到它
r - R 中的 PCA 使用 caret 包与 prcomp PCA
我有一个包含 50 多个变量的数据框 data，我正在尝试使用 caret 包在 R 中执行 PCA。 library(caret) library(e1071) trans <- preProces
python - 如何使用 Robust PCA 输出作为传统 PCA 的主成分(特征)向量
我正在使用 PCA 来降低 N 维数据集的维数，但我想增强对大异常值的稳健性，因此我一直在研究 Robust PCA 代码。对于传统的 PCA，我使用的是 python 的 sklearn.deco
apache-spark - Pyspark 和 PCA : How can I extract the eigenvectors of this PCA? 如何计算它们解释的方差？
我正在降低 Spark DataFrame 的维度与 PCA带有 pyspark 的模型(使用 spark ml 库)如下: pca = PCA(k=3, inputCol="features", o
python - 使用 python 的 sklearn 和 matlab 的 pca 的 PCA 的不同结果
我在 matlab 和 python 中生成相同的矩阵: 1 2 3 4 5 6 7 8 9 10 11 12 13
聊聊基于Alink库的主成分分析(PCA)
概述主成分分析（Principal Component Analysis，PCA）是一种常用的数据降维和特征提取技术，用于将高维数据转换为低维的特征空间。其目标是通过线性变换将原始特征转化为
主成分分析(PCA)介绍
目录计算过程投影分量计算假设你有一家理发店,已经记录了过去一年中所有顾客的头发长度和发型偏好的数据。现在你想从这些数据中提取一些主要的信息,比如顾客最常
python - 我是否必须分别为训练和测试数据做拟合 PCA
我正在考虑使用 PCA(TruncatedSVD) 来减少我的稀疏矩阵的维数。我将我的数据拆分为训练和测试拆分。 X_train , X_test, y_train, y_test = train_
r - 如何对具有多个组的数据集对每个组进行 PCA？
我有来自四个群体、四个处理和三个重复的个体数据集。每个个体仅在一个群体、处理和重复组合中。我对每个人进行了四次测量。我想对每个种群、底物和重复组合的这些测量进行 PCA。我知道如何对所有个体进行 P
python - PCA - 取平均值的差异
在考虑均值时，数字 1 和 2 背后的直觉是什么？这将如何影响性能和准确性？ 1号: pca = decomposition.PCA(n_components=4) X_centere
Scikit-Learn PCA
我正在使用来自 here 的输入数据(见第 3.1 节)。我正在尝试使用 scikit-learn 重现它们的协方差矩阵、特征值和特征向量。但是，我无法重现数据源中显示的结果。我也在别处看到过这个输
r - pca - 哪个特征向量对应于哪个特征值
我要做的事情如下:我有一套 Vektors v1-vn对于这些，我需要协方差矩阵(我在做 pca 时得到的)。我还需要协方差矩阵的特征值和特征向量。我按降序对特征值进行排序，然后根据相应的特征值对特征
OpenCV PCA 不可初始化
给定 http://docs.opencv.org/modules/core/doc/operations_on_arrays.html PCA 应该可以通过传递一个矩阵来初始化。 cv::Mat m

首页

博学

6Ren·AI

商城