gpt4 book ai didi

machine-learning - K 均值聚类 : Evaluating new Cluster centers

转载 作者:行者123 更新时间:2023-11-30 08:55:12 24 4
gpt4 key购买 nike

在所有数据点的每次迭代之后评估新的聚类中心更好,还是在为每个数据点分配聚类之后评估新的聚类中心更好?澄清一下,首选这两种方法中的哪一种:

  1. 将所有数据点分配到各个聚类,然后找到新的聚类中心
  2. 或者,将下一个数据点分配给最近的聚类并找到新的聚类中心,然后重复移动到下一个点...

最佳答案

这或多或少是两种主要方法

  1. 这或多或少是 Lloyd 方法 - 迭代所有数据点,将每个数据点分配给最近的集群,然后相应地移动所有中心,如此重复。
  2. 这或多或少是一种 Hartigan 方法 - 迭代每个数据点,看看是否最好将其移动到其他集群(是否可以最小化能量/使集群更加“密集”),重复直到没有可能的变化.

这两个哪个更好?实证研究表明 Hartigan 方法具有多种优势。特别是可以证明,Hartigan 的工作效果不会比 Lloyd 差(每个 Hartigan 最优值也是 Lloyd 最优值,但反之则不然)。 http://ijcai.org/papers13/Papers/IJCAI13-249.pdf中有很好的理论和实践分析。表明,应该遵循第二种方法,特别是当数据中有许多可能不相关的特征时。

关于machine-learning - K 均值聚类 : Evaluating new Cluster centers,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30296555/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com