gpt4 book ai didi

machine-learning - 在 Spark 中使用 Silhouette 聚类

转载 作者:行者123 更新时间:2023-11-30 08:24:34 24 4
gpt4 key购买 nike

在 Spark 中使用 KMeans 聚类时,我想使用 Silhouette 来确定 k 的最佳值。有没有最佳的并行化方法?即使其可扩展

最佳答案

不,根据定义,剪影是不可缩放的。

它使用成对距离,这总是需要 O(n^2) 时间来计算。

您将需要使用不同的东西。在大数据上使用 Silhouette 是荒谬的,计算评估度量比运行实际的 k 均值聚类算法需要更长的时间。

或者重新考虑你在做什么。例如,使用剪影是否有意义?您还可以决定在单个节点上运行比 Spark 更快的东西,在那里计算 Silhouette,并通过k简单地并行化,而不需要分布式计算的所有开销。Spark 可能会战胜 MapReduce-Mahout,但它会输给好的非分布式实现。

关于machine-learning - 在 Spark 中使用 Silhouette 聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31863148/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com