gpt4 book ai didi

python - 如何应用 sklearn 的 EllipticEnvelope 找出给定数据集中的最高异常值?

转载 作者:行者123 更新时间:2023-11-28 22:40:19 25 4
gpt4 key购买 nike

我正在使用 sklearn 的 EllipticEnvelope 来查找数据集中的异常值。但是我不确定如何为我的问题建模?我是否应该只使用所有数据(不分为训练和测试集)并应用 fit?另外,我将如何获得每个数据点的离群值?我应该在同一个数据集上使用 predict 吗?

最佳答案

正确的做法是:

  1. 将数据分为正常值离群值
  2. normal数据中提取大量样本作为normal_train,用于拟合新奇检测模型。
  3. 创建一个测试集,其中包含未在训练中使用的 normal 样本(例如 normal_test)和来自 outlier 的样本(例如outlier_test) 使得 test 数据的分布(normal_test + outlier_test)保持人口分布。
  4. 预测此测试数据以获得常用指标(准确性灵敏度positive-predictive-value等)

哇。我已经走了很长一段路!

关于python - 如何应用 sklearn 的 EllipticEnvelope 找出给定数据集中的最高异常值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33778802/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com