gpt4 book ai didi

machine-learning - 调整兰特指数(ARI)

转载 作者:行者123 更新时间:2023-11-30 08:51:27 26 4
gpt4 key购买 nike

为什么在聚类方法中使用调整兰德指数 (ARI) 和归一化互信息 (NMI) 比简单的测试分数(例如 MSE)能获得更好的测量结果?我明白哪个点属于哪个簇在聚类算法中很重要,并且标记是任意的。

最佳答案

您自己回答 - 聚类没有“MSE”,因为仅当您知道因变量的时才定义 MSE。在聚类中它不仅是任意分配的,而且甚至没有“数字”的概念,并且MSE是回归度量,它对数字而不是类进行操作。现在,为什么不通过简单地计算所有可能的标签排列来使用准确度呢?嗯,这(几乎)正是 RandIndex 的本质,尽管它起源于不同的社会,并且有不同的名称,但它与集群和标签之间的映射密切相关。那么什么是调整兰德指数?除了 RandIndex/(几乎)带有修正的准确度之外什么都没有,它告诉您完全随机分类器的行为如何。因此,它实际上是通过随机分类器的准确度标准化的准确度度量的转换。

这些“小差异”只是考虑到集群具有一些附加属性,例如:

  • 聚类(标签)的数量没有预先给出
  • 您需要使用平凡模型进行修正,这可能很难轻易弄清楚(对于分类来说,通常很容易说出平凡模型的准确性是多少)

特别是第一部分很重要,请考虑集群:

clustering   [o o o o][o o o o][o o o o ]
truth [o o o o o o o o][o o o o ]

发生的唯一“坏事”是我们将一个类分成了两部分。如果我们使用准确度,我们会得到 75%(因为一半被简单地认为是“坏”),但如果我们考虑 rand 指数,它实际上会分配比以下更高的分数:

clustering   [o][o][o][o][o o o o][o o o o ]
truth [o o o o o o o o][o o o o ]

准确率也为 75%。我认为第一个聚类确实比第二个聚类更好。

换句话说,这些指标与经典分类指标密切相关,它们只是引入了额外的风格来区分(大多数)具有不同数量集群的集群。这里的主要原因是,在聚类中,您关心的是 结构,而不是逐点标签。

关于machine-learning - 调整兰特指数(ARI),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40262038/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com