gpt4 book ai didi

python - 离群点检测中的隔离森林与稳健随机切割森林

转载 作者:行者123 更新时间:2023-12-04 16:26:21 28 4
gpt4 key购买 nike

我正在研究异常值检测中的不同方法。我遇到了 sklearn 的 Isolation Forest 的实现和 Amazon sagemaker 的 RRCF(Robust Random Cut Forest)的实现。两者都是基于决策树的集成方法,旨在隔离每个点。隔离步骤越多,点成为内点的可能性就越大,反之亦然。
但是,即使查看了算法的原始论文,我也无法准确理解两种算法之间的区别。它们的工作方式有何不同?其中一个比另一个更有效率吗?
编辑:我正在添加研究论文的链接以获取更多信息,以及一些讨论这些主题的教程。
隔离森林:
Paper Tutorial
健壮的随机砍伐森林:
Paper Tutorial

最佳答案

在我的部分答案中,我假设您引用了 Sklearn 的 Isolation Forest。我相信这些是 4 个主要区别:

  • 代码可用性:隔离森林在 Scikit-Learn ( sklearn.ensemble.IsolationForest ) 中有一个流行的开源实现,而鲁棒随机森林 (RRCF) 的两个 AWS 实现都是闭源的,在 Amazon Kinesis 中和 Amazon SageMaker .不过,GitHub 上有一个有趣的第三方 RRCF 开源实现:https://github.com/kLabUM/rrcf ;但不确定它有多受欢迎
  • 培训设计: RRCF 可以处理流,如论文中强调的和在流分析服务 Kinesis Data Analytics 中公开的那样。另一方面,没有 partial_fit方法提示我,Sklearn 的 Isolation Forest 是一种仅批处理的算法,无法轻松处理数据流
  • 可扩展性: SageMaker RRCF 更具可扩展性。 Sklearn 的隔离森林是单机代码,尽管如此,它仍可以通过 n_jobs 在 CPU 上并行化。范围。另一方面,SageMaker RRCF 可用于 one machine or multiple machines .此外,它还支持 SageMaker 管道模式(通过 unix 管道传输数据),这使得它能够学习比磁盘上更大的数据
  • 采样特征的方式 在每次递归隔离时:RRCF 赋予具有更高方差的维度更多权重(根据 SageMaker doc),而我认为隔离森林样本是随机的,这也是 RRCF 有望在高维空间中表现更好的原因之一(图片来自RRCF 论文)
    enter image description here
  • 关于python - 离群点检测中的隔离森林与稳健随机切割森林,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63115867/

    28 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com