python - 如何使用 Isolation Forest 和结果分数正确识别异常？-6ren

python - 如何使用 Isolation Forest 和结果分数正确识别异常？

转载作者：行者123 更新时间：2023-12-02 03:08:59

30

4

我正在尝试使用 sklearn 中的隔离森林算法检测数据框中的异常值。

这是我用来设置算法的代码:

iForest = IsolationForest(n_estimators=100, max_samples=256, contamination='auto', random_state=1, behaviour='new')
iForest.fit(dataset)
scores = iForest.decision_function(dataset)

现在，由于我不知道污染的良好值(value)是多少，我想检查我的分数并根据分数的分布决定在哪里画线。这是图表和图表本身的代码:

plt.figure(figsize=(12, 8))
plt.hist(scores, bins=50);

假设负分表示数据框中的异常值是否正确？我找不到关于 IF 分数的范围以及这些分数如何工作的很好的解释(为什么我得到负分？)。

此外，有没有办法将这些分数附加到原始数据集，并手动检查具有负分数的行以查看它们是否有意义？

谢谢!

最佳答案

解决此问题的一种方法是使用 score_samples sklearn 的 isolationforest 模块中可用的方法。将模型拟合到数据后，使用 score_samples 方法找出每个样本的异常分数(值越低越异常)。由于您没有关于数据中真正异常的信息，您可以根据您获得的分数对样本进行排序，并手动查看记录以查看分数最低的样本是否实际上是异常，在此在这个过程中，您可以想出一个阈值来将数据点分类为异常，稍后您可以将其用于任何新数据以检查它们是否异常。

关于python - 如何使用 Isolation Forest 和结果分数正确识别异常？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58215284/

30

4

0

文章推荐： css - 如何使用Live Sass Compiler编译相关的scss文件？

文章推荐： git - 如何确定 git 修复提交的目标提交？

random-forest - 插入符号 : using random forest and include cross-validation
我使用 caret 包训练随机森林，包括重复交叉验证。我想知道是否使用了 Breiman 的原始 RF 中的 OOB，或者它是否被交叉验证所取代。如果它被替换，我是否具有 Breiman 2001 中
random-forest - 插入符号 : using random forest and include cross-validation
我使用 caret 包训练随机森林，包括重复交叉验证。我想知道是否使用了 Breiman 的原始 RF 中的 OOB，或者它是否被交叉验证所取代。如果它被替换，我是否具有 Breiman 2001 中
random-forest - 构建决策树模型时处理分类特征
我使用 H2O 构建 GBM、DRF 和 DL 等分类模型。我拥有的数据集包含一些分类列，如果我想将它们用作构建模型的特征，我是否需要手动将它们转换为虚拟变量？我读到 GBM 可以在内部虚拟化分类变量
random-forest - 随机森林调整 - 树的深度和树的数量
我有关于调整随机森林分类器的基本问题。树的数量和树的深度有关系吗？树深度是否必须小于树的数量？最佳答案我同意 Tim 的观点，即树的数量和树的深度之间没有拇指比。通常，您需要尽可能多的树来改进您的
gradle - 使用ML Gradle创建Marklogic Forest
目前，我正在使用mlgradle设置Marklogic实例以自动执行部署过程。我正在基于json配置文件路径(ml-config \ forests \ db-name \ file.json)创建
r - ranger.forest 的组件含义
我正在与 ranger 合作，随机森林的快速实现。问题是我不知道如何解释结果的 $forest 部分。该文件只是说 forest: Saved forest (If write.forest set
machine-learning - Isolation Forest 需要数据标准化吗？
我希望使用 Isolation Forest 对某些系统时间序列数据进行离群值检测。在我的例子中，特征的规模是多种多样的。我的直觉告诉我应该规范化数据，但我不记得原始 Iso Forest 论文中有这
python - 没有模块名称 'sklearn.forest.ensemble'
我正在使用此代码来检测 face_spoofing import numpy as np import cv2 import joblib from face_detector import get_
random-forest - h2o随机森林中 "importance"的度量是什么
这是我的代码: set.seed(1) #Boruta on the HouseVotes84 data from mlbench library(mlbench) #has HouseVotes84
python - 如何使用 Isolation Forest 和结果分数正确识别异常？
我正在尝试使用 sklearn 中的隔离森林算法检测数据框中的异常值。这是我用来设置算法的代码: iForest = IsolationForest(n_estimators=100, max_sa
python - 如何使用 Isolation Forest 和结果分数正确识别异常？
我正在尝试使用 sklearn 中的隔离森林算法检测数据框中的异常值。这是我用来设置算法的代码: iForest = IsolationForest(n_estimators=100, max_sa
public-key-encryption - Forest 可以破解公钥密码学吗？
关闭。这个问题需要更多 focused .它目前不接受答案。想改进这个问题？更新问题，使其仅关注一个问题 editing this post . 上个月关门。 Improve this questi
r - 随机森林参数 "keep.forest"的含义
在R包randomForest中，将参数keep.Forest设置为True有什么作用？ library(randomForest) rf_model <- randomForest(rf_train
algorithm - Disjoint Set Forest 来调度作业
我如何使用不相交的集合森林来安排有惩罚的作业，从而使惩罚最小化？我们可以先根据惩罚降序排列作业。森林的每个节点 x 将代表作业编号，值 rank[x] 将代表其惩罚。但是我怎样才能最小化这个值 ra
algorithm - 什么是 DFS-Forest 组件？
我知道深度优先搜索的工作原理以及实现方法，但我一直在我的教科书中看到 DFS-Forest 组件被引用，但我不完全确定它的含义。我知道图的一个组件是与其他组件断开连接的子图。那么什么是 DFS-For
1110. Delete Nodes And Return Forest 删点成林
题目地址：https://leetcode.com/problems/delete-nodes-and-return-forest/ 题目描述 Given the root of a binary
random-forest - 错误 'RandomForestClassifier' 对象没有属性 'target_type_'
当我运行这段代码时: from yellowbrick.classifier import ROCAUC from sklearn.ensemble import RandomForestClassi
azure - 无法通过 ARM 模板启动 AD Forest
我正在尝试通过 ARM 模板创建 Windows 虚拟机、AD 林、域和 DC。我正在使用这里的模板: https://github.com/Azure/azure-quickstart-templ
opencv - 未能形成二分类并使用 predict_prob() : Random Forest, opencv
我用opencv做随机森林，我已经成功地建立了森林。但是我需要使用 predict_prob 来知道样本属于第二类的确切机会。我现在它是如何工作的，但是有一个错误说我的森林不是二元分类，我不能使用
java - j图 : General Traversal & Forest Traversal
早上好/下午好/晚上好。因此，我们的数据结构类(class)给了我们一个作业，使用以下算法在 java 中分割灰度图像: Input: A gray-scale image with P pixel

首页

博学

6Ren·AI

商城

python - 如何使用 Isolation Forest 和结果分数正确识别异常？