- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我阅读了关于 Rand Index 的维基百科文章和 Adjusted Rand Index 。我可以理解它们是如何数学计算的,并且可以将兰德指数解释为同意与分歧的比率。但我对 ARI 没有同样的直觉。
This blogpost通过考虑重叠的机会,解释了为什么 ARI 比 RI 更好。有人可以通过示例或直观的解释来解释为什么 ARI 比 RI 更好。
最佳答案
我认为主要的直观点是您已经链接的博客文章中提到的,
How do two random sets have a RI that is close to 1? The reason is due to the number of clusters. When there are a lot of clusters, there's a higher chance that a pair of items in both sets are in different clusters. This is still counted as a concordant event in the RI.
如果一对元素或者都位于每个分区的同一簇中,或者如果它们位于不同的簇中,则 RI 将其视为“成功”每个分区。
仅仅通过增加分区中的簇数量,这种“成功”的概念就会受到随机机会的不利影响。例如,想象一个包含 100 个示例的数据集。分区 X 会将其分为 100 个不同的子集,每个子集有 1 个数据点。分区 Y 会将其分为 99 个子集,其中 98 个子集每个有一个数据点,1 个子集有两个数据点。
对于这种情况,常规 RI 看起来几乎是完美的,因为对于随机选择的任何两个点,它们肯定位于 X 中的两个不同子集中,并且它们不在 Y 中的两个不同子集中的唯一方式是不太可能我们从包含两个项目的特殊第 99 个子集中抽取了两个项目。因此 RI 将非常接近 1(如果我们使数据集大于 100,我们可以使其任意接近 1)。
但对于 ARI,列联表中的所有 n_ij
项根据定义均为 1 或 0,这意味着分子必须为负数,表明簇相似性较差(这基本上是由事实上,这些分区携带的唯一“信息”是具有两个数据点的 Y 的一个子集……因此,如果 X 不能重现这一点,那么从某种意义上来说,它在重现 Y 指示的关系方面非常糟糕) .
您可以通过将 X 视为 50 个不同的二元素对集合,将 Y 视为 50 个不同的二元素对集合的不同集合,使这个思想实验变得更加复杂。话又说回来,RI 看起来不错只是随机的,因为大多数时候元素会随机地都不属于同一个双元素子集。只会对 X 或 Y 中实际属于一起的对(100 个可能的对)进行惩罚,而对于其他 (100 选择 2) - 100
剩余的对,RI 会将它们标记为成功地分为 X 和 Y 中的不同组。同样,只要增大数据集就会越来越提高 RI。
关于machine-learning - 为什么调整后的兰特指数(ARI)比兰特指数(RI)更好以及如何从公式直观地理解ARI,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50237569/
如何根据 e(公钥)、d(私钥)和模数计算 p 和 q 参数? 我手边有 BigInteger 键,我可以将粘贴复制到代码中。一个公钥、一个私钥和一个模数。 我需要据此计算 RSA 参数 p 和 q。
如何在 JavaScript 中计算指数? 比如你会怎么做 12^2? 最佳答案 Math.pow() : js> Math.pow(12, 2) 144 关于JavaScript 指数,我们在Sta
也许是时候喝一杯咖啡了,但我看到了一个我没想到会看到的奇怪问题。 我正在阅读 JavaScript The Good Parts,在语法部分我看到以下内容: If a number literal h
我正在使用带有 eclipse link 2.3 &Derby db 的实体管理器 JPA,并且我有包含 10 个实体的模型,对于每个实体,我需要存储 1000 条记录,此过程大约需要 70 秒。我已
我习惯了制作 iPhone 应用程序,但现在我需要制作 Mac 应用程序。因此我必须切换到 Cocoa 框架。 有没有类似于 Cocoa 中的 array.index(of: ) 的东西? iOS 示
我正在尝试在控制台中打印文件名“xyz.0.html”。它吐出一个错误 "substring not found" 目录中的文件: xyz.0.html xyz.1.html xyz.2.html p
我需要计算 h-index来 self 存储在树中的出版物列表。 我所做的是按递减顺序遍历树,获取引用位置列表 看起来像: line 1 10 line 2 5 line 3 4 line 4 0 我
有没有一种更简单的方法将幂符号/指数符号转换为其等价数字(即从 ⁸ 到 8),而不仅仅是一堆 replace是吗? 编辑:谢谢大家的解决方案! 最佳答案 您可以创建一个正则表达式并执行一次 repla
我编写这段代码是为了查找指数 b 的最后一位数字,但 SPOJ 说它是错误的。我尝试了几乎所有的测试用例,但找不到错误。问题:http://www.spoj.com/problems/LASTDIG/
我对 CSS 中的 z-index 有疑问。 代码: div.banniere{ background-image:url('../img/banniere.png'); backgr
我有一个弹出的“对话框”小部件,其 z-index 为 100。当我创建另一个弹出窗口( float div)时,它出现在对话框小部件下方,因为我没有明确设置 z -新弹出窗口的索引。 结构最终看起来
我正在尝试从一篇学术论文中实现一个真相发现算法。它是一种流式算法,可以实时推断真相和源质量。如果有人有兴趣阅读本文,请在此处了解更多详细信息:http://dl.acm.org/citation.cf
这个问题在这里已经有了答案: Difference between Big-O and Little-O Notation (5 个答案) 关闭 8 年前。 直观上,nb = o(an)(o 是小哦
我在这里使用 sklearn 制作了一个决策树,在 SciKit learn DL 包下,即。 sklearn.tree.DecisionTreeClassifier().fit(x,y)。 如何在每
为了解释这一点,这基本上是一种将浮点向量数据缩小为 8 位或 16 位有符号或无符号整数的方法,该整数具有单个公共(public)无符号指数(最常见的是 bs16 以 11 为常用指数的精度)。 我不
是否可以在 Algolia 中“加入”索引?获得合并结果? 例如: 如果我有两个索引:一个用于“用户”,一个用于“事件”。每个用户都有 id 和 name 属性。每个事件都有 date 和 userI
有人可以提供一个关于如何在 pytorch 中为语义分割计算 IoU(交集对联合)的玩具示例吗? 最佳答案 我在某处找到了它并为我改编了它。如果我能再次找到它,我会发布链接。抱歉,如果这是重复的。 这
我正在将 NativeBase 与指数一起使用。标题位于手机的状态栏下方。您可以在 NativeBase 中看到这一点指数发布的演示。 有没有人解决这个问题? 最佳答案 由于此问题仅在 Android
基本上,有20只羊为一组。当羊群发展到80只羊后,就不再需要有人看管了。每年 t 的羊数量 N 可以通过以下公式找到: N = 220/(1 + 10(0.83)^t) 该程序试图找出羊需要被监管多少
我正在尝试编写一个 SPARQL 查询,我想在其中过滤某些内容的平方,但我根本无法弄清楚如何计算数字的平方(x2)(当然,除了将其与自身相乘之外)。我猜想有一个名为 math:sqrt() 的平方根函
我是一名优秀的程序员,十分优秀!