gpt4 book ai didi

r - R commander 的 S_Dbw 输出中的 "Inf"是什么意思?

转载 作者:行者123 更新时间:2023-12-02 22:24:23 28 4
gpt4 key购买 nike

我已经运行了 clv 包,它由 S_Dbw 和 SD 有效性索引组成,用于 R commander 中的集群目的。 (http://cran.r-project.org/web/packages/clv/index.html)

我使用 S_Dbw 索​​引评估了 DBSCAN、K-Means、Kohonen 算法的聚类结果。但对于所有这三种算法,S_Dbw 都是“Inf”。

是“无限”的意思吗?为什么我要面对“Inf”。我的聚类结果有问题吗?

一般来说,S_Dbw 索​​引结果什么时候是“Inf”?

最佳答案

比较不同算法与此类索引时要小心。

原因是索引本身就是一种算法。一个特定的集群必然是每个索引的“最佳”集群。索引和实际聚类算法之间的主要区别是索引不会告诉您如何找到“最佳”解决方案。

一些示例:k-means 最小化集群成员到集群中心的距离。单链接层次聚类将找到分区之间具有最佳最小距离的分区。那么,DBSCAN 将找到数据集的分区,其中所有密度连接点都在同一分区中。因此,DBSCAN 是最优的 - 如果您使用适当的度量。

说真的。不要假设因为一种算法在特定度量中得分高于另一种算法就意味着该算法运行得更好。您通过这种方式发现的所有内容都是特定算法与特定度量更(相关)相关。在概念层面上,将其视为度量与算法之间的一种相关性。

使用度量来比较相同算法的不同结果是不同的。那么很明显,一种算法本身不应该有好处。关于参数可能仍然有类似的效果。例如,当您增加 k 时,k 均值中的簇内距离显然应该下降。

事实上,许多措施在 DBSCAN 结果上什至没有明确定义。因为 DBSCAN 具有噪声点的概念,索引 AFAIK。

不要假设该度量会告诉您什么是“正确”或“正确”。更不用说什么是有用的新的。因为您不应该使用聚类分析来寻找特定度量的数学最优值,而应该了解有关您的数据的新的有用信息。这可能不是某个度量值。

回到指数。它们通常完全围绕 k-means 设计。简单看一下 S_Dbw,我的印象是当一个“集群”由一个单个对象(例如 DBSCAN 中的噪声对象)组成时,该值将变为无穷大- 又名:未定义。似乎该索引的作者没有考虑这种极端情况,而只是将其用于没有出现这种情况的玩具数据集。如果不从原始索引转移并将其转换为另一个索引,R 实现无法解决此问题。处理噪声对象和单例绝非易事。我还没有看到一个索引不会以某种方式失败 - 通常,诸如“所有对象都是噪声”之类的解决方案要么得分完美,要么可以通过将每个噪声对象放在最近的位置来微不足道地改进每个聚类非单例集群。如果您希望您的算法能够说“这个对象不属于任何集群”那么我不知道任何合适的索引。

关于r - R commander 的 S_Dbw 输出中的 "Inf"是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13177720/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com