gpt4 book ai didi

machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI

转载 作者:行者123 更新时间:2023-11-30 08:28:50 52 4
gpt4 key购买 nike

我阅读了关于 Rand Index 的维基百科文章和 Adjusted Rand Index 。我可以理解它们是如何数学计算的,并且可以将兰德指数解释为同意与分歧的比率。但我对 ARI 没有同样的直觉。

This blogpost通过考虑重叠的机会,解释了为什么 ARI 比 RI 更好。有人可以通过示例或直观的解释来解释为什么 ARI 比 RI 更好。

最佳答案

我认为主要的直观点是您已经链接的博客文章中提到的,

How do two random sets have a RI that is close to 1? The reason is due to the number of clusters. When there are a lot of clusters, there's a higher chance that a pair of items in both sets are in different clusters. This is still counted as a concordant event in the RI.

如果一对元素或者都位于每个分区的同一簇中,或者如果它们位于不同的簇中,则 RI 将其视为“成功”每个分区。

仅仅通过增加分区中的簇数量,这种“成功”的概念就会受到随机机会的不利影响。例如,想象一个包含 100 个示例的数据集。分区 X 会将其分为 100 个不同的子集,每个子​​集有 1 个数据点。分区 Y 会将其分为 99 个子集,其中 98 个子集每个有一个数据点,1 个子集有两个数据点。

对于这种情况,常规 RI 看起来几乎是完美的,因为对于随机选择的任何两个点,它们肯定位于 X 中的两个不同子集中,并且它们不在 Y 中的两个不同子集中的唯一方式是不太可能我们从包含两个项目的特殊第 99 个子集中抽取了两个项目。因此 RI 将非常接近 1(如果我们使数据集大于 100,我们可以使其任意接近 1)。

但对于 ARI,列联表中的所有 n_ij 项根据定义均为 1 或 0,这意味着分子必须为负数,表明簇相似性较差(这基本上是由事实上,这些分区携带的唯一“信息”是具有两个数据点的 Y 的一个子集……因此,如果 X 不能重现这一点,那么从某种意义上来说,它在重现 Y 指示的关系方面非常糟糕) .

您可以通过将 X 视为 50 个不同的二元素对集合,将 Y 视为 50 个不同的二元素对集合的不同集合,使这个思想实验变得更加复杂。话又说回来,RI 看起来不错只是随机的,因为大多数时候元素会随机地不属于同一个双元素子集。只会对 X 或 Y 中实际属于一起的对(100 个可能的对)进行惩罚,而对于其他 (100 选择 2) - 100 剩余的对,RI 会将它们标记为成功地分为 X 和 Y 中的不同组。同样,只要增大数据集就会越来越提高 RI。

关于machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50237569/

52 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com