gpt4 book ai didi

machine-learning - 如何随机创建异常数据集?

转载 作者:行者123 更新时间:2023-11-30 09:03:18 25 4
gpt4 key购买 nike

我正在尝试创建一个异常数据集,它有 8 列,一些列包含分类值,其他列包含正数值。并且该数据仅包含两种类型的数据点:正常数据点和异常值。

我想知道您是否知道任何工具或库或某些方法可以帮助我自动创建此类数据集。我听说 numpy 有生成标准分布的工具,但我认为它无法创建分类值。

就像每次一样,非常感谢您的帮助。

最佳答案

前言:您应该问自己一个非常重要的问题:根据您的说法,什么是异常值,然后尝试模拟这些异常值。您可以在下面找到粗略的指南:

数值

您可以通过创建一个具有某种预定义分布的数据集(例如均值 0 的标准正态分布和 1 的方差)并用它创建一些数据点来轻松实现这一点(比如说10_000)。另一种分布来自另一种分布(甚至是高斯分布,但均值、方差不同),并表示 50 点为异常值。

分类值

取决于可能的分类值的大小以及您是否希望离群值和非离群值数据都在某个范围内。

分类值相同范围

假设,分类值在 [0, 10] 范围内。因此,您可以使用 numpy 的 np.random.randint 在整个范围内(例如 5 列)生成它们,因此您将得到如下示例:

[1, 4, 7, 9, 3]

现在,异常值可以在 [0, 10] 中包含更窄的值,例如 [7,9],因此它们的值可能是:

[7, 7, 8, 9, 8]

考虑到这种组合,它应该被视为异常值(当然会有一些误报,因为 [0, 10] 可能会创建原则上类似的东西)。

分类值不同范围

这个案例比较简单;只需使用不同的范围,您就可以确定没有数据点会在非异常值数据中包含这些值。

摘要

总而言之,您可以混合使用这些方法并改变程度,以使异常值算法的任务变得更困难(类似的数据生成过程)或更简单(这两者之间的功能差异很大)。

上面的参数化和创建一个具有不同难度的函数应该很容易。除非你需要更复杂的东西,否则不要去图书馆(当然你可以让整个想法变得更复杂)。

关于machine-learning - 如何随机创建异常数据集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59273709/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com