gpt4 book ai didi

cluster-analysis - 使用 k 均值聚类时如何确定 k?

转载 作者:行者123 更新时间:2023-12-03 04:26:52 25 4
gpt4 key购买 nike

我一直在研究k-means clustering ,还有一件事不清楚,那就是如何选择 k 的值。这只是一个反复试验的问题,还是还有其他原因?

最佳答案

您可以最大化贝叶斯信息准则 (BIC):

BIC(C | X) = L(X | C) - (p / 2) * log n

其中L(X | C)是根据模型C的数据集X的对数似然,p 是模型 C 中的参数数量,n 是数据集中的点数。请参阅"X-means: extending K-means with efficient estimation of the number of clusters"作者:Dan Pelleg 和 Andrew Moore,ICML 2000。

另一种方法是从较大的 k 值开始,并不断删除质心(减少 k),直到不再减少描述长度。请参阅"MDL principle for robust vector quantisation"作者:Horst Bischof、Ales Leonardis 和 Alexander Selb,《模式分析与应用》卷。 2,第 14 页。 59-72,1999。

最后,您可以从一个簇开始,然后继续 split 簇,直到分配给每个簇的点具有高斯分布。在 "Learning the k in k-means" (NIPS 2003),Greg Hamerly 和 Charles Elkan 展示了一些证据,表明这种方法比 BIC 效果更好,并且 BIC 对模型复杂性的惩罚力度不够。

关于cluster-analysis - 使用 k 均值聚类时如何确定 k?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1793532/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com