gpt4 book ai didi

scikit-learn - 揭示 k-modes 集群特征

转载 作者:行者123 更新时间:2023-12-04 19:34:19 26 4
gpt4 key购买 nike

我正在对分类数据进行聚类分析,因此使用 k-modes 方法。

我的数据被塑造成一个偏好调查:
你喜欢头发和眼睛吗?

enter image description here

受访者可以从固定(多项选择)的 4 种可能性中选出一个答案。

因此,我得到了假人,应用 k 模式,将集群附加回初始 df,然后使用 pca 将它们绘制在 2D 中。

我的代码看起来像:

import numpy as np
import pandas as pd
from kmodes import kmodes

df_dummy = pd.get_dummies(df)

#transform into numpy array
x = df_dummy.reset_index().values

km = kmodes.KModes(n_clusters=3, init='Huang', n_init=5, verbose=0)
clusters = km.fit_predict(x)
df_dummy['clusters'] = clusters


import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
pca = PCA(2)

# Turn the dummified df into two columns with PCA
plot_columns = pca.fit_transform(df_dummy.ix[:,0:12])

# Plot based on the two dimensions, and shade by cluster label
plt.scatter(x=plot_columns[:,1], y=plot_columns[:,0], c=df_dummy["clusters"], s=30)
plt.show()

我可以想象:

enter image description here

现在我的问题是:
能否以某种方式揭示每个集群的显着特征?
即,散点图中绿点组的主要特征是什么(可能是金发和蓝眼睛)?

我知道聚类已经发生,但我找不到一种方法来解释聚类的实际含义。

我应该玩 .labels_ 对象吗?

最佳答案

看看km.cluster_centroids_ .这将为每个集群提供每个变量的模式。

关于scikit-learn - 揭示 k-modes 集群特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41827660/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com