gpt4 book ai didi

cluster-analysis - 小批量 k 均值返回少于 k 个集群

转载 作者:行者123 更新时间:2023-12-04 20:41:54 25 4
gpt4 key购买 nike

我一直在与 mini-batch k-means 一起工作使用 scikit-learn实现对大约 45000 个观测值的数据集进行聚类,每个观测值具有大约 170 个特征。我注意到,随着 k 的增加,算法无法返回指定数量的集群,如果 k 超过数据集中观察数量的 30%(45000 的 30%)并继续增加,则返回的集群数量不会不再增加。

我想知道这是否与算法在 scikit-learn 中实现的方式有关,或者是否与它的定义有关。我一直在研究提出它的论文,但我无法弄清楚为什么会发生这种情况。

有没有人经历过这个?现在有人如何解释这种行为?

最佳答案

k-means 可能会失败,因为 集群可以消失 .

当您有很多重复项时,这一点最为明显。

如果您的所有数据点都相同,那么为什么应该有多个(非空)集群?

据我所知,它并不特定于小批量 k 均值。一些实现让您指定当集群退化时要做什么,例如使用最远的点作为新的聚类中心,丢弃该聚类,或保持不变(可能会再次拾取一个点)。

关于cluster-analysis - 小批量 k 均值返回少于 k 个集群,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24919346/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com