gpt4 book ai didi

cluster-analysis - 使用 k 均值聚类时如何确定 k?

转载 作者:行者123 更新时间:2023-11-30 12:05:04 25 4
gpt4 key购买 nike

我一直在研究 k-means clustering ,并且不清楚的一件事是如何选择 k 的值。这只是反复试验的问题,还是还有其他问题?

最佳答案

您可以最大化贝叶斯信息准则 (BIC):

BIC(C | X) = L(X | C) - (p / 2) * log n

其中 L(X | C) 是数据集 X 根据模型 C 的对数似然,p是模型C中的参数个数,n是数据集中的点数。参见 "X-means: extending K-means with efficient estimation of the number of clusters"由 Dan Pelleg 和 Andrew Moore 在 ICML 2000 中发表。

另一种方法是从较大的 k 值开始,并不断移除质心(减少 k),直到它不再减少描述长度。参见 "MDL principle for robust vector quantisation"由 Horst Bischof、Ales Leonardis 和 Alexander Selb 在模式分析和应用 卷中撰写。 2,页。 59-72, 1999.

最后,您可以从一个集群开始,然后不断拆分集群,直到分配给每个集群的点都具有高斯分布。在 "Learning the k in k-means" (NIPS 2003),Greg Hamerly 和 Charles Elkan 展示了一些证据表明这比 BIC 更有效,并且 BIC 没有足够强烈地惩罚模型的复杂性。

关于cluster-analysis - 使用 k 均值聚类时如何确定 k?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56650486/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com