machine-learning - 在 Spark 中使用 Silhouette 聚类-6ren

machine-learning - 在 Spark 中使用 Silhouette 聚类

转载作者：行者123 更新时间：2023-11-30 08:24:34

在 Spark 中使用 KMeans 聚类时，我想使用 Silhouette 来确定 k 的最佳值。有没有最佳的并行化方法？即使其可扩展

最佳答案

不，根据定义，剪影是不可缩放的。

它使用成对距离，这总是需要 O(n^2) 时间来计算。

您将需要使用不同的东西。在大数据上使用 Silhouette 是荒谬的，计算评估度量比运行实际的 k 均值聚类算法需要更长的时间。

或者重新考虑你在做什么。例如，使用剪影是否有意义？您还可以决定在单个节点上运行比 Spark 更快的东西，在那里计算 Silhouette，并通过k简单地并行化，而不需要分布式计算的所有开销。Spark 可能会战胜 MapReduce-Mahout，但它会输给好的非分布式实现。

关于machine-learning - 在 Spark 中使用 Silhouette 聚类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31863148/

python - 如何使用 scikit-learn silhouette score 计算 scipy 的 fcluster 的 Silhouette Score？
我使用 scipy.cluster.hierarchy.linkage 作为聚类算法并将结果链接矩阵传递给 scipy.cluster.hierarchy.fcluster ，以获得扁平化的集群，用于
scala - 如何使用 Play Silhouette 实现无状态 cookie 身份验证？
下面的链接说您可以将 CookieAuthenticator 用作无状态或有状态。 http://silhouette.mohiva.com/docs/authenticator 但是我在下面的链接中
machine-learning - 在 Spark 中使用 Silhouette 聚类
在 Spark 中使用 KMeans 聚类时，我想使用 Silhouette 来确定 k 的最佳值。有没有最佳的并行化方法？即使其可扩展最佳答案不，根据定义，剪影是不可缩放的。它使用成对距离，这
python - 在 sklearn 中使用 silhouette 分数进行高效的 k-means 评估
我正在对约 100 万个项目(每个表示为一个约 100 个特征向量)运行 k-means 聚类。我已经为各种 k 运行了聚类，现在想用 sklearn 中实现的轮廓分数来评估不同的结果。尝试在没有采样

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章