gpt4 book ai didi

machine-learning - 为什么不只使用 Canopy 聚类而不是与 KMeans Mahout 结合使用

转载 作者:行者123 更新时间:2023-11-30 09:13:01 24 4
gpt4 key购买 nike

问题就在标题中 - 如果 Canopy 可以用于聚类以及确定质心,为什么不使用它进行聚类,而不是仅使用它生成质心作为 KMeans 聚类的输入?

我正在考虑使用 Mahout 来实现,但我认为这更多的是一个概念,与系统没有太多关系。

谢谢

最佳答案

Canopy 已从 Mahout 中弃用,所以我根本不会使用它。

它的速度很快,因此我们的想法是对起始质心进行比随机估计更好的快速估计,以便 kmeans 收敛得更快。

Canopy 没有收敛标准,因此您得到的只是第一个猜测。 Kmeans 按照称为梯度下降的算法进行迭代,以找到定义的误差函数的局部最小值。因此它会收敛到更好的猜测,但通常您从一个随机质心开始,希望它放置得很好。 Canopy 试图更好地放置起始质心,但效果并不好,甚至比随机更好。

因此,您可以采用 Canopy 的猜测并通过遍历所有向量并找到它们最接近的 Canopy 质心来计算集群,但集群不会获得迭代的好处,并且在交叉验证测试中得分会更差。

关于machine-learning - 为什么不只使用 Canopy 聚类而不是与 KMeans Mahout 结合使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25447935/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com