python - 隔离林-6ren

python - 隔离林

转载作者：太空宇宙更新时间：2023-11-03 10:54:02

24

4

我目前正在使用 Python 中的 IsolationForest 方法识别数据集中的离群值，但并不完全理解 sklearn 上的示例:

http://scikit-learn.org/stable/auto_examples/ensemble/plot_isolation_forest.html#sphx-glr-auto-examples-ensemble-plot-isolation-forest-py

具体来说，图表实际上向我们展示了什么？观测值已被定义为正常/离群值——所以我假设等高线图的阴影表明该观测值是否确实是离群值(例如，具有较高异常分数的观测值位于较暗的阴影区域？)。

最后，下面的代码部分是如何实际使用的(特别是 y_pred 函数)？

# fit the model
clf = IsolationForest(max_samples=100, random_state=rng)
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)

我猜它只是为了完整性而提供，以防有人想要打印输出？

在此先感谢您的帮助!

最佳答案

For each observation, it tells whether or not (+1 or -1**) it should be considered as an outlier according to the fitted model.**

使用 Iris 数据的简单示例

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import IsolationForest

rng = np.random.RandomState(42)
data = load_iris()

X=data.data
y=data.target
X_outliers = rng.uniform(low=-4, high=4, size=(X.shape[0], X.shape[1]))

X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.3, random_state=0)

clf = IsolationForest(random_state=0)
clf.fit(X_train)

y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers)

print(y_pred_test)
print(y_pred_outliers)

结果:

[-1 -1 -1 -1  1 -1  1  1  1  1  1  1  1  1  1  1  1  1  1 -1  1  1  1 -1
  1 -1 -1  1 -1  1  1  1  1  1  1  1 -1  1  1  1  1  1  1 -1  1]

[-1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1]

解释:

print(y_pred_test) 返回 1 和 -1。这意味着 X_test 的一些样本不是异常值，而一些是(source)。

另一方面，print(y_pred_outliers) 只返回 -1。这意味着 X_outliers 的所有样本(虹膜数据总共 150 个)都是异常值。

使用您的代码

在您的代码之后，只需打印y_pred_outliers:

# fit the model
clf = IsolationForest(max_samples=100, random_state=rng)
clf.fit(X_train)
y_pred_train = clf.predict(X_train)
y_pred_test = clf.predict(X_test)
y_pred_outliers = clf.predict(X_outliers) 

print(y_pred_outliers)

关于python - 隔离林，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44951597/

24

4

0

文章推荐： python - Flasgger - 上传文件

文章推荐： c# - 缓慢迁移公共(public)网站

文章推荐： c# - AES 加密文件中是否有 Salt 和 IV 的标准位置

文章推荐： python - PyQt 设置列宽

Jquery 隔离
我的公司有一个 Web 应用程序，其中包含纯 JavaScript，它以自己的方式使用 $ -“美元符号”，如下所示: function $(e) { return document.getE
Cassandra 隔离——更新对其他客户端的可见性
doc说“这意味着对单个节点上单个分区内的行的写入仅对执行操作的客户端可见”。如果有另一个 client2 在同一个分区和同一个节点上执行操作，那么文档中提到的“THE CLIENT”执行的写入是否
javascript - iFrame 隔离
只是一个想法，但在 DIV 上使用 IFRAME 本质上会使该元素与窗口隔离，从而降低 IFRAME 中运行的脚本速度不会影响其他框架/窗口吗？最佳答案是的，对于第一部分，iframe 会“某种
php - mysql事务中的更新——隔离
我有以下模型 Inventory [product_name, quantity, reserved_quantity] 有数据 [Shirt, 1, 0] [Shorts, 10, 0] 如果以下代
.net - 使用WaitHandle.WaitAll时是否可以在ThreadPool中对任务进行分组/隔离？
我面临的情况如下。因为ThreadPool是每个进程1个实例，所以我的问题是是否会在 3秒后取消方法2排队的任务？ http request comes in *method 1 gets execu
dart - 无法暂停 Dart 隔离
我希望在 Dart 中创建一个 Isolate，我可以通过编程方式暂停和恢复。这是我使用的代码。 import 'dart:io'; import 'dart:isolate'; void main(
AngularJS:访问指令的范围与父 Controller 隔离
我想编写一个具有隔离作用域的指令，但也希望使该作用域可用于父作用域的 Controller 。我找到了这个解决方案: app.directive('popupbutton', [functi
javascript - 隔离 JSON 中具有相似属性的对象
我有一个像这样的 JSON 对象: [ {"Subject": "Physics", "Active": 48, "Date": "2020-01-22T00:00:00Z"}, {"Su
cucumber - 隔离 Cabbage 中的场景
我正在使用 Elixir 自动执行用 Gherkin 编写的规范中定义的验收测试。一种方法是使用名为 Cabbage 的 ExUnit 插件。 . 现在，ExUnit 似乎提供了一个在任何单个测试之前
docker - 为多个用户实现 Docker 隔离
我被要求为多个用户配置一个带有 docker 的 ubuntu 18.04 服务器。目的: 我们有多个编写测试用例的测试人员。但是我们的笔记本电脑速度不够快，无法在 docker 环境中构建项目和运
java - 隔离 Sprite 表子图像以进行动画和显示
我一直在网上寻找完整的解决方案，但到目前为止，我只能找到不合适的部分。我正在寻找一个可以查看图像文件、循环遍历文件并隔离 Sprite 然后保存它们的程序。之后，我需要一种方法来重新访问该 Spri
javascript - 隔离 JavaScript 函数执行
我想知道如何隔离 JavaScript 函数的执行以避免浏览器崩溃。示例:如果我想在控制台中输出一个包含大约 10k 元素的关联数组，浏览器将停止响应。我怎样才能避免这种情况？最佳答案解决方案是
c# - 事务和 TransactionScope 隔离
我必须向我的数据库添加大量信息。添加此信息大约需要 5-7 分钟。我需要添加交易。我试过这个: try { db.Connection.Open(); db.Transaction
javascript - 隔离 iframe session
我有 6 个 iframe，它们来自同一个域，但具有不同的 url 和子目录。他们都使用 html header “set-cookie”设置了一个名称相同但值不同的 cookie。我需要将它们的 c
java - 开闭和接口(interface)隔离
我正在编写一个代码，它基本上读取一个文本文件(表格格式)并检查该文件是否包含预期的数据类型。为此我写了下面的课。示例文件应该是这样的。 name age abc 20 xyz
mysql - 隔离 sql 查询中的行
我有一个表，线程。我有一个表，thread_participants。我正在尝试隔离与特定 thread_id 和特定 thread_participants.user_id 标识的行。例如，如果
mysql - 在数据库中查找、隔离、重建和替换字符串
我有一个非常实际的问题。我的数据库中有大约 400 篇文章，在这些文章中我有其他文章的链接。在转换过程中，链接被破坏。我们在 CMS 中手动插入新的菜单链接项。我想制作一个脚本来查找(文章)id 并将
javascript - 将代码与其他脚本(命名空间)隔离
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
database - Postgres SCHEMA 隔离
我在想是否可以在 postgres 数据库(高于 8.3 的版本)上创建一个只能访问特定指定模式的用户。问题是，在我的数据库中我有一些模式。如果我撤销某个用户对除一个模式之外的所有模式的所有特权，他仍
python - 隔离 3d 数据点的策略
我有两组点，一组来自分析，另一组用于分析数据的后处理结果。黑色的分析数据是散乱的。用于结果的点是红色的。这是同一地 block 上的两组: 我遇到的问题是:我将插值到红点上，但如您所见，有些红点

首页

博学

6Ren·AI

商城

python - 隔离林