- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我已经编写了自己的 LOF 实现,我正在尝试将结果与 ELKI 和 RapidMiner 中的实现进行比较,但所有 3 个都给出不同的结果!我正在尝试找出原因。
我的引用数据集是一维的,有 102 个真实值,有很多重复值。我会尝试在下面发布它。
首先,RapidMiner 的实现。 LOF 分数与 ELKI 和我的结果大不相同;许多人带着无穷大的 LOF 回来。此实现是否已被验证为正确?
我的结果与 ELKI 相似,但我没有得到完全相同的 LOF 值。快速浏览 ELKI 源代码中的注释,我认为这可能是因为计算 k 邻域的方式不同。
在 LOF 论文中,MinPts 参数(别处称为 k)指定最小值。要包含在 k 邻域中的点数。在 ELKI 实现中,我认为他们将 k 邻域定义为恰好 k 个点,而不是 k 距离或 k 不同距离内的所有点。任何人都可以确切地确认 ELKI 是如何构建 k 邻域的吗?还有一个私有(private)变量允许将点本身包含在它自己的邻域中,但看起来默认情况下不包含它。
有谁知道附有用于验证目的的 LOF 分数的公共(public)引用数据集?
---更多细节如下---
引用:ELKI源码在这里:
http://elki.dbs.ifi.lmu.de/browser/elki/trunk/src/de/lmu/ifi/dbs/elki/algorithm/outlier/lof/LOF.java
RapidMiner 源代码在这里:
这是我的测试数据集:
4.323235.12595 5.12595 5.12595 5.12595 5.7457 5.7457 5.74575.7457 5.7457 5.7457 5.97766 5.977666.07352 6.07352 6.12015 6.12015 6.12015 6.44797 6.447976.48131 6.48131 6.48131 6.48131 6.48131 6.48131 6.63336.6333 6.6333 6.70872 6.70872 6.70872 6.70872 6.708726.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.775796.77579 6.77579 6.77579 6.77579 6.77579 6.77579 6.775796.775797.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.036547.03654 7.03654 7.03654 7.03654 7.03654 7.03654 7.036547.03654 7.10361 7.10361 7.10361 7.10361 7.10361 7.103617.10361 7.10361 7.15651 7.15651 7.15651 7.15651 7.156517.15651 7.15651 7.156518.22598 8.22598 8.22598 8.22598 8.5538 8.5538 8.55388.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.55388.5538 8.5538 8.5538 8.5538 8.5538 8.5538 8.5538
例如,我得到以下第一个数字 (4.32323) 的 LOF 分数:
关于我的实现正在做什么的更多细节:
最佳答案
其实我并不惊讶他们的不同。您还可以添加 Weka 的 LOF 实现,您可能会得到另一个答案。
这是您要添加到方程式中的另一个区别:据我所知,rapidminer 实现合并具有相同坐标的点。但也许,他们在计算最近邻时忘记考虑这些权重!
在经典数据库上下文中,您不会将重复的坐标合并到单个观测值中。它们仍然是有效的数据库记录,应算作完整记录。
我不知道他们中是否有人执行一些自动数据预处理,例如重新缩放数据集。
ELKI 实现已根据我们用于教学的大量教科书示例进行了验证。
但是,算法中存在并非 100% 固定的极端情况,因此即使在算法的“文字”实现中也存在差异空间。您已经遇到了其中三个:
如何处理重复点:A)聚合,B)丢弃,C)考虑不同
从数据挖掘的角度来看,C 是正确的,而 A(如果实现正确)是一种优化,可以为您节省不必要的距离计算。 B 是常见的数学 View ,但对于数据库上下文没有多大意义。如果我有两个“李四”,他们是同一个人吗?
k 最近邻和 k 距离的定义。
k距离的通常定义是:最小距离,使得至少包含k个观测值。当排除查询点时,这会产生从起点到 5.7457 的间隔:在 5.7457 - 4.32323 的半径范围内还有 10 个其他观测值。
k个最近邻通常定义为这个距离内的任意一个点,这个距离可能大于k。但是所有其他对象必须具有与第 k 个对象相同的距离!rapidminer 似乎使用了 exactly k,这与 LOF 出版物不一致(参见 LOF 出版物中的定义 4!)
它实际上是 k 个最近的邻居(包括关系,但除此之外不超过 k 个对象),不是第 k 个最小的distinct 距离。你从哪里得到“不同的”?
LOF 出版物中的定义 3 和 4 非常清楚地说明了 LOF 使用的 kNN 集。
因此,您的 48 个对象的邻域是不正确的。
如果有超过 minPts 个重复点该怎么办(文字实现将产生除以零,但出于显而易见的原因,应该为该点赋予 1.0 的 LOF)
这可能就是 Rapidminer 正在发生的事情。
然后是可达距离:这个真的很棘手,因为它不是数学距离。它是不对称的。
第一个观察的可达性 来自 第二个恰好是第二个的 k 距离,从快速看(没有仔细检查)reach-dist(x[ 0], x[1]) = max(5.97766 - 5.12595, 5.12595 - 4.32323) = 0.80272
参见 my extensive tutorial slides on outlier detection有关如何计算 LOF 的分步演示。据我所知,这是字面上的 LOF。它没有触及所有极端情况,但它激发了 LOF 算法的设计并且非常详尽。
关于java - ELKI 和 RapidMiner 中 LOF 实现的不同结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14987200/
背景: 我最近一直在使用 JPA,我为相当大的关系数据库项目生成持久层的轻松程度给我留下了深刻的印象。 我们公司使用大量非 SQL 数据库,特别是面向列的数据库。我对可能对这些数据库使用 JPA 有一
我已经在我的 maven pom 中添加了这些构建配置,因为我希望将 Apache Solr 依赖项与 Jar 捆绑在一起。否则我得到了 SolarServerException: ClassNotF
interface ITurtle { void Fight(); void EatPizza(); } interface ILeonardo : ITurtle {
我希望可用于 Java 的对象/关系映射 (ORM) 工具之一能够满足这些要求: 使用 JPA 或 native SQL 查询获取大量行并将其作为实体对象返回。 允许在行(实体)中进行迭代,并在对当前
好像没有,因为我有实现From for 的代码, 我可以转换 A到 B与 .into() , 但同样的事情不适用于 Vec .into()一个Vec . 要么我搞砸了阻止实现派生的事情,要么这不应该发
在 C# 中,如果 A 实现 IX 并且 B 继承自 A ,是否必然遵循 B 实现 IX?如果是,是因为 LSP 吗?之间有什么区别吗: 1. Interface IX; Class A : IX;
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我正在阅读标准haskell库的(^)的实现代码: (^) :: (Num a, Integral b) => a -> b -> a x0 ^ y0 | y0 a -> b ->a expo x0
我将把国际象棋游戏表示为 C++ 结构。我认为,最好的选择是树结构(因为在每个深度我们都有几个可能的移动)。 这是一个好的方法吗? struct TreeElement{ SomeMoveType
我正在为用户名数据库实现字符串匹配算法。我的方法采用现有的用户名数据库和用户想要的新用户名,然后检查用户名是否已被占用。如果采用该方法,则该方法应该返回带有数据库中未采用的数字的用户名。 例子: “贾
我正在尝试实现 Breadth-first search algorithm , 为了找到两个顶点之间的最短距离。我开发了一个 Queue 对象来保存和检索对象,并且我有一个二维数组来保存两个给定顶点
我目前正在 ika 中开发我的 Python 游戏,它使用 python 2.5 我决定为 AI 使用 A* 寻路。然而,我发现它对我的需要来说太慢了(3-4 个敌人可能会落后于游戏,但我想供应 4-
我正在寻找 Kademlia 的开源实现C/C++ 中的分布式哈希表。它必须是轻量级和跨平台的(win/linux/mac)。 它必须能够将信息发布到 DHT 并检索它。 最佳答案 OpenDHT是
我在一本书中读到这一行:-“当我们要求 C++ 实现运行程序时,它会通过调用此函数来实现。” 而且我想知道“C++ 实现”是什么意思或具体是什么。帮忙!? 最佳答案 “C++ 实现”是指编译器加上链接
我正在尝试使用分支定界的 C++ 实现这个背包问题。此网站上有一个 Java 版本:Implementing branch and bound for knapsack 我试图让我的 C++ 版本打印
在很多情况下,我需要在 C# 中访问合适的哈希算法,从重写 GetHashCode 到对数据执行快速比较/查找。 我发现 FNV 哈希是一种非常简单/好/快速的哈希算法。但是,我从未见过 C# 实现的
目录 LRU缓存替换策略 核心思想 不适用场景 算法基本实现 算法优化
1. 绪论 在前面文章中提到 空间直角坐标系相互转换 ,测绘坐标转换时,一般涉及到的情况是:两个直角坐标系的小角度转换。这个就是我们经常在测绘数据处理中,WGS-84坐标系、54北京坐标系
在软件开发过程中,有时候我们需要定时地检查数据库中的数据,并在发现新增数据时触发一个动作。为了实现这个需求,我们在 .Net 7 下进行一次简单的演示. PeriodicTimer .
二分查找 二分查找算法,说白了就是在有序的数组里面给予一个存在数组里面的值key,然后将其先和数组中间的比较,如果key大于中间值,进行下一次mid后面的比较,直到找到相等的,就可以得到它的位置。
我是一名优秀的程序员,十分优秀!