- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Spark 中使用 KMeans 聚类时,我想使用 Silhouette 来确定 k 的最佳值。有没有最佳的并行化方法?即使其可扩展
最佳答案
不,根据定义,剪影是不可缩放的。
它使用成对距离,这总是需要 O(n^2) 时间来计算。
您将需要使用不同的东西。在大数据上使用 Silhouette 是荒谬的,计算评估度量比运行实际的 k 均值聚类算法需要更长的时间。
或者重新考虑你在做什么。例如,使用剪影是否有意义?您还可以决定在单个节点上运行比 Spark 更快的东西,在那里计算 Silhouette,并通过k简单地并行化,而不需要分布式计算的所有开销。Spark 可能会战胜 MapReduce-Mahout,但它会输给好的非分布式实现。
关于machine-learning - 在 Spark 中使用 Silhouette 聚类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31863148/
我使用 scipy.cluster.hierarchy.linkage 作为聚类算法并将结果链接矩阵传递给 scipy.cluster.hierarchy.fcluster ,以获得扁平化的集群,用于
下面的链接说您可以将 CookieAuthenticator 用作无状态或有状态。 http://silhouette.mohiva.com/docs/authenticator 但是我在下面的链接中
在 Spark 中使用 KMeans 聚类时,我想使用 Silhouette 来确定 k 的最佳值。有没有最佳的并行化方法?即使其可扩展 最佳答案 不,根据定义,剪影是不可缩放的。 它使用成对距离,这
我正在对约 100 万个项目(每个表示为一个约 100 个特征向量)运行 k-means 聚类。我已经为各种 k 运行了聚类,现在想用 sklearn 中实现的轮廓分数来评估不同的结果。尝试在没有采样
我是一名优秀的程序员,十分优秀!