gpt4 book ai didi

machine-learning - 为什么要使用 CH 和 SIL 来查找 Elbow(或使用 L 方法)来选择簇数量?

转载 作者:行者123 更新时间:2023-11-30 09:45:45 25 4
gpt4 key购买 nike

this paper ,作者使用CH(Caliński-Harabasz指数)和SIL(Silhouette指数)方法来决定簇的数量。然而,它不是选择最高值,而是对这些指数应用 L 方法,选择其拐点(肘部)。 enter image description here

In this link有很多子问题,其中一个是关于为什么作者使用 CH 的最大“稳定性”来定义簇的数量。然而,这个子问题的答案并没有解释这个决定。

该问题的最大“稳定性”与 L 方法有关,因为他们选择了变化开始最小的点。

将 L 方法(或最大稳定性)与 CH 和 SIL 指数结合使用的原因是什么?我通常希望将这些指数最大化? (例如,我会理解他们是否会使用内部平方和)

最佳答案

聚类分析的一个常见问题是人们预先设定必须有一个良好的聚类,并且它必须可以通过他们的预处理、方法来实现、和参数。 未能聚类显然不是一种选择 - 但它应该是。特别是如果您(必须)进行大量预处理,这很容易失败。对足够复杂的数据应用 PCA,您将得到一个单个类似高斯的 Blob 。统计学中最大的错误是你没有测试你的整个假设是否都是错误的......

您可以在此处找到成功的 CH 和轮廓图示例:

https://mathworks.com/help/stats/clustering.evaluation.calinskiharabaszevaluation-class.html

https://mathworks.com/help/stats/clustering.evaluation.silhouetteevaluation-class.html

该图表明,在“表现非常良好”的 Iris 数据上,3 个簇可能是更好的选择。如果您想用它来争论簇的数量,这就是 CH 轮廓图的样子。如果绘图没有显示这样的峰值,那么您可能无法使用它 - 或者您的所有聚类都不好......

还应该指出的是,这些措施只是启发式的。更好的 CH 或 Silhouette 并不能保证在每个目的上都能获得更好的结果。

关于machine-learning - 为什么要使用 CH 和 SIL 来查找 Elbow(或使用 L 方法)来选择簇数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52880393/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com