如何用 Python 处理不平衡数据集-6ren

如何用 Python 处理不平衡数据集

转载作者：qq735679552 更新时间：2022-09-29 22:32:09

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章如何用 Python 处理不平衡数据集由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

1. 什么是数据不平衡

所谓的数据不平衡（imbalanced data）是指数据集中各个类别的数量分布不均衡；不平衡数据在现实任务中十分的常见。如。

信用卡欺诈数据：99%都是正常的数据， 1%是欺诈数据
贷款逾期数据

不平衡数据一般是由于数据产生的原因导致的，类别少的样本通常是发生的频率低，需要很长的周期进行采集.

在机器学习任务（如分类问题)中，不平衡数据会导致训练的模型预测的结果会偏向于样本数量多的类别，这个时候除了要选择合适的评估指标外，想要提升模型的性能，就要对数据和模型做一些预处理.

处理数据不平衡的主要方法:

欠采样
过采样
综合采样
模型集成

调整类别权重或者样本权重。

2. 数据不平衡处理方法

imbalanced-learn库提供了许多不平衡数据处理的方法，本文的例子都以imbalanced-learn库来实现.

pip install -U imbalanced-learn

https://github.com/scikit-learn-contrib/imbalanced-learn 。

本文例子的数据来自进行中的比赛山东省第二届数据应用创新创业大赛-日照分赛场-公积金贷款逾期预测。

先来看下数据。

import pandas as pdtrain_data = "./data/train.csv"test_data = "./data/test.csv"train_df = pd.read_csv(train_data)test_df = pd.read_csv(test_data)print(train_df.groupby(["label"]).size())# label为是否违约， 1为违约， 0为非违约#     label# 0    37243# 1     2757

如何用 Python 处理不平衡数据集

2.1 欠采样

所谓欠采样，就是将数量多类别（记为majority）的样本进行抽样，使之数量与数量少的类别（minority）的数量相当，以此达到数量的平衡.

如何用 Python 处理不平衡数据集

由于欠采样是丢失了一部分数据，不可避免的使得数量多类别样本的分布发生了变化（方差变大）。好的欠采样策略应该尽可能保持原有数据分布.

欠采样是删除majority的样本，那哪些样本可以删除呢?

一种是overlapping的数据，就是多余的数据
一种是干扰的数据，干扰minority的分布

基于此，有两种思路来欠采样。

边界相邻匹配，考虑在近邻空间内删除majority样本，方法如TomekLinks, NearMiss

下面这张图，展示6NN（6个最近邻居）。

如何用 Python 处理不平衡数据集

这里重点讲下TomekLinks， TomekLinks方法简单的说：对每一个minority样本找1NN（最近的邻居），如果最近的邻居是majority，就形成一个tome-links，该方法人为这个majority是干扰的，将它删除.

如何用 Python 处理不平衡数据集

from imblearn.under_sampling import TomekLinksX_train = train_df.drop(["id", "type"], axis=1)y = train_df["label"]tl = TomekLinks()X_us, y_us = tl.fit_sample(X_train, y)print(X_us.groupby(["label"]).size())# label# 0    36069# 1     2757

从上可知，有1174个tomek-link被删除，好像删除还不够多，可以测试下是否对分类结果有帮助。需要注意的因为需要计算最近邻，所以样本属性必须数值属性，或者可以转化为数值属性.

聚类

这类方法通过多个聚类，把原始样本划分成多个聚类簇，然后用每个聚类簇的中心来代替这个聚类簇的特性，完成采样的目的。可知，这种采样的样本不是来自原始样本集，而是聚类生成的.

from imblearn.under_sampling import ClusterCentroids cc = ClusterCentroids(random_state=42)X_res, y_res = cc.fit_resample(X_train, y)X_res.groupby(["label"]).size()# label# 0    2757# 1    2757

im-balance提供的欠采样的方法如下:

Random majority under-sampling with replacement
Extraction of majority-minority Tomek links
Under-sampling with Cluster Centroids
NearMiss-(1 & 2 & 3)
Condensed Nearest Neighbour
One-Sided Selection
Neighboorhood Cleaning Rule
Edited Nearest Neighbours
Instance Hardness Threshold
Repeated Edited Nearest Neighbours
AllKNN

2.2 过采样

所谓过采样，就是将数量少的类别（minority）的样本进行copy，使之数量与数量多的类别(majortity)的数量相当，以此达到数量的平衡。由于复制了多份minoruty样本，过采样会改变minority方差.

如何用 Python 处理不平衡数据集

过采样一种简单的方式是随机copy minority的样本；另外一种是根据现有样本生成人造样本。这里介绍人造样本的经典算法SMOTE(Synthetic Minority Over-sampling Technique).

SMOTE基于minority样本相似的特征空间构造新的人工样本。步骤如下:

选择一个minority样本，计算其KNN邻居
在K个邻居中，随机选择一个近邻
修改某一个特征,偏移一定的大小：偏移的大小为该minority样本与该近邻差距乘以一个小的随机比率(0, 1)，就此生成新样本

如何用 Python 处理不平衡数据集

from imblearn.over_sampling import SMOTEsmote = SMOTE(k_neighbors=5, random_state=42)X_res, y_res = smote.fit_resample(X_train, y)X_res.groupby(["label"]).size()# label# 0    37243# 1    37243

对于SMOTE方法，对每一个minority都会构造新样本。但是并不总是这样的，考虑下面A,B,C三个点。从数据分布来看，C点很可能是一个异常点（Noise），B点是正常分布的点（SAFE），而A点分布在边界位置（DANGER）,

直观上，对于C点我们不应该去构造新样本，对B点，构造新样本不会丰富minority类别的分布。只有A点，如果构造新样本能够使得A点从（DANGER）到（SAFE），加强minority类别的分类边界。这个就是Borderline-SMOTE 。

如何用 Python 处理不平衡数据集

from imblearn.over_sampling import BorderlineSMOTEbsmote = BorderlineSMOTE(k_neighbors=5, random_state=42)X_res, y_res = bsmote.fit_resample(X_train, y)X_res.groupby(["label"]).size()# label# 0    37243# 1    37243

ADASYN方法从保持样本分布的角度来确定生成数据，生成数据的方式和SMOTE是一样的，不同在于每个minortiy样本生成样本的数量不同.

先确定要生成样本的数量 beta为[0, 1]

如何用 Python 处理不平衡数据集

对每个每个minortiy样本，确定有它生成样本的比例。先找出K最近邻，计算K最近邻中属于majority的样本比例（即分子），Z是归一化因子，保证所有的minortiry的比例和为1，可以认为是所有分子的和。

如何用 Python 处理不平衡数据集

计算每个minortiy生成新样本的数量

如何用 Python 处理不平衡数据集

按照SMOTE方式生成样本

from imblearn.over_sampling import ADASYN adasyn = ADASYN(n_neighbors=5, random_state=42)X_res, y_res = adasyn.fit_resample(X_train, y)X_res.groupby(["label"]).size()# label# 0    37243# 1    36690

im-balance提供的过采样的方法如下（包括SMOTE算法的变种）:

Random minority over-sampling with replacement
SMOTE - Synthetic Minority Over-sampling Technique
SMOTENC - SMOTE for Nominal Continuous
bSMOTE(1 & 2) - Borderline SMOTE of types 1 and 2
SVM SMOTE - Support Vectors SMOTE
ADASYN - Adaptive synthetic sampling approach for imbalanced learning
KMeans-SMOTE
ROSE - Random OverSampling Examples

2.3 综合采样

过采样是针对minority样本，欠采样是针对majority样本；而综合采样是既对minority样本，又对majority样本，同时进行操作的方法。主要有SMOTE+Tomek-links和SMOTE+Edited Nearest Neighbours.

综合采样的方法，是先进行过采样，在进行欠采样.

from imblearn.combine import SMOTETomeksmote_tomek = SMOTETomek(random_state=0)X_res, y_res = smote_tomek.fit_sample(X_train, y)X_res.groupby(["label"]).size()# label# 0    36260# 1    36260

2.4 模型集成

这里的模型集成主要体现在数据上，即用众多平衡的数据集（majortiry的样本进行欠采样加上minority样本）训练多个模型，然后进行集成。imblearn.ensemble提供几种常见的模型集成算法，如BalancedRandomForestClassifier 。

from imblearn.ensemble import BalancedRandomForestClassifierfrom sklearn.datasets import make_classificationX, y = make_classification(n_samples=1000, n_classes=3,                           n_informative=4, weights=[0.2, 0.3, 0.5],                           random_state=0)clf = BalancedRandomForestClassifier(max_depth=2, random_state=0)clf.fit(X, y)  print(clf.feature_importances_)  print(clf.predict([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0,                    0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]))

im-balance提供的模型集成的方法如下。

Easy Ensemble classifier
Balanced Random Forest
Balanced Bagging
RUSBoost

2.5 调整类别权重或者样本权重

对于很多用梯度下降方法来学习（使得某个损失Loss最小）的机器学习的方法，可以通过调整类别权重或样本权重的方式，来一定程度上平衡不平衡数据。如gbdt模型lightgbm 中 class_weight 。

import lightgbm as lgbclf = lgb.LGBMRegressor(num_leaves=31,                         min_child_samples= np.random.randint(20,25),                        max_depth=25,                        learning_rate=0.1,                         class_weight={0:1, 1:10},                        n_estimators=500,                         n_jobs=30)

3. 总结

本文分享了常见的几种处理不平衡数据集的方法，并且提供imbalanced-learn的简单例子。总结如下:

欠采样: 减少majoritry样本
过采样：增加minority样本
综合采样：先过采样，在欠采样
模型集成：制造平衡数据（majoritry样本欠采样+minority样本），多次不同的欠采样，训练不同的模型，然后融合
不管是欠采样和过采样，都一定程度的改变了原始数据的分布，可能造成模型过拟合。需要去尝试哪种方法，符合实际的数据分布。当然不一定有效果，去勇敢尝试吧 just do it！

4. 参考资料

Learning from Imbalanced Data
Two Modifications of CNN（Tomek links，CNN乍一看还以为卷积神经网络，其实是condensed nearest-neighbor）
imbalanced-learn API：https://imbalanced-learn.org/stable/

以上就是如何用 Python 处理不平衡数据集的详细内容，更多关于Python 处理不平衡数据集的资料请关注我其它相关文章！。

原文链接：https://mp.weixin.qq.com/s/BU9mNNKhvR_LGo7IWKrAmQ 。

最后此篇关于如何用 Python 处理不平衡数据集的文章就讲到这里了,如果你想了解更多关于如何用 Python 处理不平衡数据集的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐： python Scrapy框架原理解析

文章推荐： Python3.4学习笔记之常用操作符,条件分支和循环用法示例

文章推荐： JavaWeb实现学生信息管理系统(3)

文章推荐： Python创建简单的神经网络实例讲解

python - Python 中的集群或合并集群以减少组数 (Python)
我正在处理一组标记为 160 个组的 173k 点。我想通过合并最接近的(到 9 或 10 个组)来减少组/集群的数量。我搜索过 sklearn 或类似的库，但没有成功。我猜它只是通过 knn 聚类
python - python 列表的子集基于同一列表的元素组，pythonically
我有一个扁平数字列表，这些数字逻辑上以 3 为一组，其中每个三元组是 (number, __ignored, flag[0 or 1])，例如: [7,56,1, 8,0,0, 2,0,0, 6,1,
python - 激活 Python 虚拟环境并在另一个 Python 脚本中调用 Python 脚本
我正在使用 pipenv 来管理我的包。我想编写一个 python 脚本来调用另一个使用不同虚拟环境(VE)的 python 脚本。如何运行使用 VE1 的 python 脚本 1 并调用另一个 p
python - 在焕然一新的 Python 环境中以编程方式从 Python 内部执行 Python 文件
假设我有一个文件 script.py 位于 path = "foo/bar/script.py"。我正在寻找一种在 Python 中通过函数 execute_script() 从我的主要 Python
python - 从 python 脚本但在 python 脚本之外运行 python 脚本
这听起来像是谜语或笑话，但实际上我还没有找到这个问题的答案。问题到底是什么？我想运行 2 个脚本。在第一个脚本中，我调用另一个脚本，但我希望它们继续并行，而不是在两个单独的线程中。主要是我不希望第
python - 使用不同的 python 从 python 运行 python 脚本
我有一个带有 python 2.5.5 的软件。我想发送一个命令，该命令将在 python 2.7.5 中启动一个脚本，然后继续执行该脚本。我试过用 #!python2.7.5 和http://re
python - 为什么从 Python 命令行调用 Python 时 Python 无法找到并运行我的脚本？
我在 python 命令行(使用 python 2.7)中，并尝试运行 Python 脚本。我的操作系统是 Windows 7。我已将我的目录设置为包含我所有脚本的文件夹，使用: os.chdir("
python - 使用动态版本的 Python 执行嵌入的 Python 代码时出现致命的 Python 错误
剧透:部分解决(见最后)。以下是使用 Python 嵌入的代码示例: #include int main(int argc, char** argv) { Py_SetPythonHome
python - python 中识别 python 数组或列表中最大累积差异的最快方法是什么？
假设我有以下列表，对应于及时的股票价格: prices = [1, 3, 7, 10, 9, 8, 5, 3, 6, 8, 12, 9, 6, 10, 13, 8, 4, 11] 我想确定以下总体上最
python - (Python) 通过单选按钮 python 更新背景
所以我试图在选择某个单选按钮时更改此框架的背景。我的框架位于一个类中，并且单选按钮的功能位于该类之外。 (这样我就可以在所有其他框架上调用它们。) 问题是每当我选择单选按钮时都会出现以下错误: co
python - python 中的字符串与正则表达式比较在 python 中失败
我正在尝试将字符串与 python 中的正则表达式进行比较，如下所示， #!/usr/bin/env python3 import re str1 = "Expecting property name
python - python 如何加载Boost.Python 库？
考虑以下原型(prototype) Boost.Python 模块，该模块从单独的 C++ 头文件中引入类“D”。 /* file: a/b.cpp */ BOOST_PYTHON_MODULE(c)
python - python 检查模块 python 的问题
如何编写一个程序来“识别函数调用的行号？” python 检查模块提供了定位行号的选项，但是， def di(): return inspect.currentframe().f_back.f_l
python - 系统 python 与用户 python
我已经使用 macports 安装了 Python 2.7，并且由于我的 $PATH 变量，这就是我输入 $ python 时得到的变量。然而，virtualenv 默认使用 Python 2.6，除
python - [Python] : Python re. 长字符串行的搜索速度优化
我只想问如何加快 python 上的 re.search 速度。我有一个很长的字符串行，长度为 176861(即带有一些符号的字母数字字符)，我使用此函数测试了该行以进行研究: def getExe
python - 编辑字符串 python 正则表达式 python
list1= [u'%app%%General%%Council%', u'%people%', u'%people%%Regional%%Council%%Mandate%', u'%ppp%%Ge
python - Python 映射中的副作用(Python "do" block )
这个问题在这里已经有了答案: Is it Pythonic to use list comprehensions for just side effects? (7 个答案) 关闭 4 个月前。告
python - 使用其值逻辑组合两个 python 列表 - Python
我想用 Python 将两个列表组合成一个列表，方法如下: a = [1,1,1,2,2,2,3,3,3,3] b= ["Sun", "is", "bright", "June","and" ,"Ju
python - Boost.Python python 链接错误
我正在运行带有最新 Boost 发行版 (1.55.0) 的 Mac OS X 10.8.4 (Darwin 12.4.0)。我正在按照说明 here构建包含在我的发行版中的教程 Boost-Pyth
python - 在 Python 中仅使用内置库制作一个基本的网络抓取工具 - Python
学习 Python，我正在尝试制作一个没有任何第 3 方库的网络抓取工具，这样过程对我来说并没有简化，而且我知道我在做什么。我浏览了一些在线资源，但所有这些都让我对某些事情感到困惑。 html 看起来

qq735679552

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城