machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI-6ren

machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI

转载作者：行者123 更新时间：2023-11-30 08:28:50

52

4

我阅读了关于 Rand Index 的维基百科文章和 Adjusted Rand Index 。我可以理解它们是如何数学计算的，并且可以将兰德指数解释为同意与分歧的比率。但我对 ARI 没有同样的直觉。

This blogpost通过考虑重叠的机会，解释了为什么 ARI 比 RI 更好。有人可以通过示例或直观的解释来解释为什么 ARI 比 RI 更好。

最佳答案

我认为主要的直观点是您已经链接的博客文章中提到的，

How do two random sets have a RI that is close to 1? The reason is due to the number of clusters. When there are a lot of clusters, there's a higher chance that a pair of items in both sets are in different clusters. This is still counted as a concordant event in the RI.

如果一对元素或者都位于每个分区的同一簇中，或者如果它们位于不同的簇中，则 RI 将其视为“成功”每个分区。

仅仅通过增加分区中的簇数量，这种“成功”的概念就会受到随机机会的不利影响。例如，想象一个包含 100 个示例的数据集。分区 X 会将其分为 100 个不同的子集，每个子集有 1 个数据点。分区 Y 会将其分为 99 个子集，其中 98 个子集每个有一个数据点，1 个子集有两个数据点。

对于这种情况，常规 RI 看起来几乎是完美的，因为对于随机选择的任何两个点，它们肯定位于 X 中的两个不同子集中，并且它们不在 Y 中的两个不同子集中的唯一方式是不太可能我们从包含两个项目的特殊第 99 个子集中抽取了两个项目。因此 RI 将非常接近 1(如果我们使数据集大于 100，我们可以使其任意接近 1)。

但对于 ARI，列联表中的所有 n_ij 项根据定义均为 1 或 0，这意味着分子必须为负数，表明簇相似性较差(这基本上是由事实上，这些分区携带的唯一“信息”是具有两个数据点的 Y 的一个子集……因此，如果 X 不能重现这一点，那么从某种意义上来说，它在重现 Y 指示的关系方面非常糟糕) .

您可以通过将 X 视为 50 个不同的二元素对集合，将 Y 视为 50 个不同的二元素对集合的不同集合，使这个思想实验变得更加复杂。话又说回来，RI 看起来不错只是随机的，因为大多数时候元素会随机地都不属于同一个双元素子集。只会对 X 或 Y 中实际属于一起的对(100 个可能的对)进行惩罚，而对于其他 (100 选择 2) - 100 剩余的对，RI 会将它们标记为成功地分为 X 和 Y 中的不同组。同样，只要增大数据集就会越来越提高 RI。

关于machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50237569/

52

4

0

文章推荐： machine-learning - Keras 去噪自动编码器(表格数据)

文章推荐： r - 使用配方和插入符的 preProcess 进行预处理的差异

ruby - Ruby 中 ary[start, length] 和 ary[range] 的区别
a = [ "a", "b", "c", "d", "e" ] 这两种说法有什么区别？ a[1,3] #=> [ "b", "c", "d" ] 对比 a[1..3]
hibernate - org.apache.aries.jpa :org. apache.aries.jpa.blueprint :2. 3.0 - 无法运行
我按照此处的教程 (https://github.com/apache/aries-jpa/tree/master/examples) 运行 aries-jpa 示例，但没有成功。 README.md
万字长文解析最常见的数据库恢复算法:ARIES
万字长文解析最常见的数据库恢复算法: ARIES 首发地址： https://mp.weixin.qq.com/s/Kc13g8OHK1h_f7eMlnl4Aw Intro
Asterisk ARI 将记录桥接到单独的文件/ channel
我想知道是否有人有录制 ARI 桥来分离文件、未混合的经验(或至少分离立体声文件的 L 和 R channel )。似乎这可以通过记录单独的 channel 来实现，但这些 channel 无法桥接。
rest - Asterisk ARI 创建外呼
我正在尝试使用 ARI API 发起调用，我遵循的过程是 POST/ari/channels 创建 channel 1 到本地扩展 POST/ari/bridges 创建网桥 POST/ari/bri
javascript - 使用 ARI 监视与桥梁相关的事件
我正在尝试使用 Asterisk ARI 来监视与桥相关的事件。我正在使用 Asterisk 13.6.0。具体来说，我想知道桥何时创建或销毁，以及用户( channel )何时加入或离开桥。在我的
machine-learning - 调整兰特指数(ARI)
为什么在聚类方法中使用调整兰德指数 (ARI) 和归一化互信息 (NMI) 比简单的测试分数(例如 MSE)能获得更好的测量结果？我明白哪个点属于哪个簇在聚类算法中很重要，并且标记是任意的。最佳答案
在 n-ary 树中找到最大非相邻和的算法
给定一棵 n 元整数树，任务是找到一个子序列的最大和，其约束条件是序列中的任何 2 个数字都不应共享树中的公共(public)边。例子: 1个 /\ 2 5 /\ 3 4最大非相邻和 = 3 + 4
linux - ARI 身份验证( Asterisk )
我无法通过控制台浏览器(lynx、elinks)在 ARI 中进行身份验证 cat/etc/asterisk/ari.conf : [general] enabled = yes pret
database - 为什么 Aries 在数据库管理恢复中先执行重做再撤消？
如果 Aries 算法已经知道在分析阶段后要撤消哪些事务，为什么要在撤消之前应用重做？我知道(认为)它与 Lsn 编号和保持一致性有关，因为鉴于磁盘上刷新的数据可能与崩溃时撤消事务不同，撤消事务(由
database - 在 ARIES 恢复方法中重复历史记录有什么好处？
在ARIES algorithm ，为什么它需要在重做通行证中重复崩溃前的所有历史记录？我可以在分析过程中获取提交的事务编号，然后重做提交的事务日志记录吗？这种方法将减少需要重做和撤消的记录数。最佳
javascript - ARI JS 客户端静音错误
我目前正在为 asterisk 开发静音功能，我可以使用 asterisk ARI 从我的 Web 前端运行它。但每次我尝试运行/调用静音函数时，都会出现以下错误: Error: { "mess
parameters - 是否有像 n-ary 这样的术语描述返回值的数量而不是函数的参数数量？
我想接受一个返回元组的函数。有没有办法描述函数的返回元组长度？最佳答案似乎不是。可能是因为它在形式逻辑中不是必需的，因为使用了 2 个函数而不是一个具有两个输出的函数。如果 arity 或 ad
java - 无法获取 k-ary 树的叶子数
我用Java编写了一个K-ary树结构的程序，所以我试图找到树的叶子数.. import java.util.List; import java.util.ArrayList; /** A tree
java - Camel + MyBatis + Apache Aries
我正在遵循位于:Camel MyBatis Integration Guide 的设置指南。我正在使用服务混合 5.0.1。我使用了 features-install spring-mybatis 来
python - scikits ARI 实现中是否存在错误，或者我对算法的理解是否有缺陷？
计算ARI时与 scikit's implementation ，我注意到一个奇怪的情况。对于某些看起来标签上高度一致的列表，ARI 仍然是 0.0 甚至更糟。我尝试了几种标签，以下是观察到的最奇怪
java - 一个数学函数可以让我们得到特定类型 k-ary 的叶子数？
我想找出一个函数 f(x) 来计算 k 叉树中的叶子数。例如，假设我们创建了一棵树，它以根 4 开始，有 3 个 child ，每个 child 分别为 -1、-2、-3。我们的叶子只会是 0 值，而
c++ - 带智能指针的 N-Ary 树设计
我正在尝试用 C++ 设计一个树类，但我遇到了节点销毁的问题。如果我销毁一个节点，我不想销毁它的整个子树，因为可能有其他东西指向它。所以显而易见的解决方案是使用引用计数。我会有一个指向父节点的弱指针
c++ - 从 n-ary 树中删除动态数组节点时断言错误
我在销毁树时遇到删除节点的问题。每个节点都是在我的 Tree 类中定义的结构: struct node { Skill skill; node** child; node
C - n-ary 树的根未被保存/更新
我正在尝试编写一个程序，将家谱表示为 n 叉树。该程序必须从 CSV 文件中读取名称并构建树。树由以下结构表示: typedef struct NTree_S { char * na

首页

博学

6Ren·AI

商城

machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI