gpt4 book ai didi

security - 如何处理高度不平衡的数据集

转载 作者:行者123 更新时间:2023-11-30 09:52:06 25 4
gpt4 key购买 nike

我正在检查dataset CERT V4.1这是为了模拟内部威胁而合成的。我意识到它包含大约 850K 样本,其中大约 200 个样本被视为恶意数据。这是正常的吗?我在这里错过了什么吗?如果是这样的话,如果我想使用深度学习,我该如何处理这样的数据呢?

最佳答案

如果您的数据不平衡,您有很多选择(请参阅下面的链接)。除此之外,还有一种非常有趣的方法,其工作原理如下:

1: you randomly split your 850K negative samples in blocks of 200

2: you build one classifier for every block where you put all positive samples in together with one block of the negative samples

3: Use all classifiers in paralell and let them vote, find a good threshold of how many positive votes you need to be "sure enough" to classify the test sample as positive

考虑到您的数据是 200 vs 850K(意味着大约 4250 个分类器),您可能会考虑将此方法与其他方法之一结合起来,例如复制 @Prune 提到的方法或下面链接中解释的方法之一。

这里有一些处理不平衡数据的方法 http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/

关于security - 如何处理高度不平衡的数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43508065/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com