gpt4 book ai didi

machine-learning - 在查找 k 簇方面比 Elbow 更有用的另一个函数

转载 作者:行者123 更新时间:2023-11-30 08:52:23 25 4
gpt4 key购买 nike

我尝试为机器学习中的 k 均值方法找到合适的 k 簇。我用的是Elbow法,但是耗时且复杂度高。谁能告诉我另一种方法来代替它。非常感谢

最佳答案

可用于评估聚类结果的指标是 silhouette coefficient 。这个值主要计算:

silhouette coefficient = 1 - (intra-cluster cohesion) / (inter-cluster separation)

值的范围是 -1 到 +1,但通常您希望值接近 1.0。因此,如果您运行聚类算法(例如 k-means 或分层聚类)来生成 3 个聚类,则可以调用 Silhouette 库来计算 Silhouette 系数值,例如0.50。如果您再次运行算法以生成 4 个簇,您可以计算另一个轮廓系数值,例如0.55。然后您可以得出结论,4 个聚类是更好的聚类,因为它具有更高的轮廓系数。

下面是一个示例数据集,我使用 R 在二维空间中创建了三个不同的集群。注意:由于集群之间存在如此明显的分离,真实世界的数据永远不会看起来如此干净。即使像 Fisher 的 Iris 数据集这样的简单数据,标记簇之间也存在重叠。

enter image description here

然后您可以使用 R 的轮廓库来计算轮廓系数。 (更多信息可以找到 at the STHDA website 。)下面是轮廓信息图。您想要的一个指标位于左下角,显示“平均轮廓宽度:xxx”。该值是所有水平条的平均值。

这是 K=2 个簇的轮廓系数。

plot(silhouette(kmeans(df, centers=2)$cluster, dist(df)))

enter image description here

这是 K=3 簇的轮廓系数。

plot(silhouette(kmeans(df, centers=3)$cluster, dist(df)))

enter image description here

这是 K=4 个簇的轮廓系数。

plot(silhouette(kmeans(df, centers=4)$cluster, dist(df)))

enter image description here

从轮廓系数来看,您可以得出结论,K=3 个聚类是最好的聚类,因为它具有最高的轮廓系数。

您只需扫描多个候选 K 值(例如 2 到 10 之间),同时跟踪找到的最高轮廓系数,即可以编程方式找到最佳 K 值。下面我已经做到了这一点,同时还构建了轮廓系数(y 轴)与 K(x 轴)的关系图。输出显示:

Best Silhouette coefficient=0.888926 occurred at k=3

enter image description here

library(cluster) # for silhouette
library(ggplot2) # for ggplot
library(scales) # for pretty_breaks


# Create sample 2-D data set with clusters around the points (1,1), (2,4), and (3,1)
x<- c(rnorm(n=25, mean=1,sd=.1), rnorm(n=25,mean=2,sd=.1),rnorm(n=25,mean=3,sd=.2))
y<- c(rnorm(n=25, mean=1,sd=.1), rnorm(n=25,mean=4,sd=.1),rnorm(n=25,mean=1,sd=.2))

df <- data.frame(x=x, y=y)

xMax <- max(x)
yMax <- max(y)
print(ggplot(df, aes(x,y)) + geom_point() + xlim(0, max(xMax, yMax)) + ylim(0, max(xMax,yMax)))


# Use the Iris data set.
#df <- subset(iris, select=-c(Species))
#df <- scale(df)


# Run through multiple candidate values of K clusters.

xValues <- c() # Holds the kvalues (x-axis)
yValues <- c() # Holds the silhouette coefficient values (y-axis)
bestKValue <- 0
bestSilhouetteCoefficient <- 0

kSequence <- seq(2, 5)

for (kValue in kSequence) {

xValues <- append(xValues, kValue)
kmeansResult <- kmeans(df, centers=kValue, nstart=5)
silhouetteResult <- silhouette(kmeansResult$cluster, dist(df))
silhouetteCoefficient <- mean(silhouetteResult[,3])
yValues <- append(yValues, silhouetteCoefficient)

if (silhouetteCoefficient > bestSilhouetteCoefficient) {
bestSilhouetteCoefficient <- silhouetteCoefficient
bestKValue <- kValue
}
}

# Create a dataframe for ggplot to plot the accumulated silhouette values.
dfSilhouette <- data.frame(k=xValues, silhouetteCoefficient=yValues)

# Create the ggplot line plot for silhouette coefficient.
silhouettePlot<- ggplot(data=dfSilhouette, aes(k)) +
geom_line(aes(y=silhouetteCoefficient)) +
xlab("k") +
ylab("Average silhouette width") +
ggtitle("Average silhouette width") +
scale_x_continuous(breaks=pretty_breaks(n=20))

print(silhouettePlot)

printf <- function(...) cat(sprintf(...))
printf("Best Silhouette coefficient=%f occurred at k=%d", bestSilhouetteCoefficient, bestKValue )

请注意,我使用了答案 here 中的 printf 函数.

与您相关的问题是 here .

关于machine-learning - 在查找 k 簇方面比 Elbow 更有用的另一个函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37767298/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com