gpt4 book ai didi

python - 相同数据和簇数的不同轮廓分数

转载 作者:行者123 更新时间:2023-12-01 02:38:58 27 4
gpt4 key购买 nike

我想使用轮廓分数为我的数据集选择最佳的聚类数量。我的数据集是 2000 多个品牌的信息,包括购买该品牌的客户数量、该品牌的销售额以及该品牌在每个类别下销售的商品数量。

由于我的数据集非常稀疏,因此我在聚类之前使用了 MaxAbsScaler 和 TruncatedSVD。

我使用的聚类方法是 k-means,因为我最熟悉这种方法(我将不胜感激您对其他聚类方法的建议)。

当我将簇数设置为 80 并运行 k-means 时,我每次都会得到不同的轮廓分数。是因为 k-means 每次给出不同的簇吗?有时,簇数为 80 的轮廓得分小于 200,有时则相反。所以我对如何选择合理数量的簇感到困惑。

此外,我的轮廓分数的范围非常小,并且随着簇数量的增加而变化不大,范围从 0.15 到 0.2。

这是我运行 Silhouette 分数得到的结果:

For n_clusters=80, The Silhouette Coefficient is 0.17329035592930178
For n_clusters=100, The Silhouette Coefficient is 0.16970208098407866
For n_clusters=200, The Silhouette Coefficient is 0.1961679920561574
For n_clusters=300, The Silhouette Coefficient is 0.19367019831221857
For n_clusters=400, The Silhouette Coefficient is 0.19818865972762675
For n_clusters=500, The Silhouette Coefficient is 0.19551544844885604
For n_clusters=600, The Silhouette Coefficient is 0.19611760638136203

非常感谢您的建议!提前致谢!

最佳答案

是的,k-means 是随机的,因此它并不总是给出相同的结果。

通常这意味着这个 k 不好。

但是不要盲目依赖剪影。找到“最佳”k 不够可靠。很大程度上,因为通常根本没有最好的 k

查看数据,并利用您的理解来选择一个好的聚类。不要指望任何好的事情会自动出现。

关于python - 相同数据和簇数的不同轮廓分数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45933018/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com