gpt4 book ai didi

algorithm - 使用 ELKI 进行离群值检测

转载 作者:塔克拉玛干 更新时间:2023-11-03 04:00:03 25 4
gpt4 key购买 nike

我正在使用 ELKI 数据挖掘软件进行异常值检测。它有许多异常值检测技术,但都提供相同的结果(所有技术的异常值相同,唯一的区别在于点周围的圆圈大小,如下图所示)。我使用 ELKI 网站上提供的鼠 header 数据集。在数据集中,所有点都标有其各自的集群名称,无论是来自 ear_left 还是 ear_right 还是来自 head 或 noise。如果我将噪声标签更改为 ear_right,它会将该异常点显示为 ear_right。我已将 10 个噪声标签中的 5 个更改为 ear_right。

这是在 ELKI 中使用 KNN 和 LDOF 异常值检测技术以及修改后的数据集的结果:

enter image description here

是软件问题还是我做错了什么?有没有人尝试过将其用于异常值检测?是否有任何好的软件可以使用不同的算法(如 LOF、LDOF、KNN)执行异常值检测,或者我在哪里可以找到这些技术的算法源代码?

最佳答案

这是一个非常简单的数据集。

不足为奇的是,这些方法或多或少都有效。因为这是一个玩具数据集,而不是真实数据...在真实数据上,离群值检测非常非常困难。

请注意,ELKI 中的实现分配数字分数。它们不会产生是/否异常值决定;从分数中得出这一点很简单。

如果您想要二进制结果,您可以将可视化缩放参数设置为仅可视化前 k 个结果。在其他情况下,您可能需要阅读实际的论文。例如,LOCI 的作者建议将得分大于 3 的对象视为异常值。 (不幸的是,大多数方法都没有特别简单的解释可用。)

不要在分类框中思考。异常值检测是一种探索性技术,而不是分类。

ELKI 还可以使用多种度量来评估异常值方法的质量,例如 ROC AUC、ROC 曲线、Precision@k、AveP、Maximum-F1。

关于algorithm - 使用 ELKI 进行离群值检测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26885515/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com