- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个不平衡的数据集,当我尝试使用 SMOTEENN 来平衡他时,多数类的数量减少了一半
我尝试使用提供的所有选项更改“sampling_strategy”参数,但没有帮助
from imblearn.combine import SMOTEENN
sme = SMOTEENN()
X_res, y_res = sme.fit_resample(X_train, y_train)
print(f'Original train dataset shape: {Counter(y_train)}')
# Original train dataset shape: Counter({1: 2194, 0: 205})
print(f'Resampled train dataset shape: {Counter(y_res)}\n')
# Resampled train dataset shape: Counter({0: 2117, 1: 1226})
最佳答案
如果您查看文档 SMOTEENN ( https://imbalanced-learn.readthedocs.io/en/stable/generated/imblearn.combine.SMOTEENN.html#imblearn.combine.SMOTEENN):
使用 SMOTE 和编辑最近邻结合过采样和欠采样。
如果您想为每个类别获得偶数,您可以尝试使用其他技术,例如 over_sampling.SMOTE
例如:
from sklearn.datasets import make_classification
from imblearn.combine import SMOTEENN
from imblearn.over_sampling import SMOTE
from collections import Counter
X, y = make_classification(n_samples=5000, n_features=2, n_informative=2,
n_redundant=0, n_repeated=0, n_classes=2,
n_clusters_per_class=1,
weights=[0.06, 0.94],
class_sep=0.1, random_state=0)
sme = SMOTEENN()
X_res, y_res = sme.fit_resample(X, y)
print(f'Original train dataset shape: {Counter(y)}')
# Original train dataset shape: Counter({1: 4679, 0: 321})
print(f'Resampled train dataset shape: {Counter(y_res)}\n')
# Resampled train dataset shape: Counter({0: 3561, 1: 3246})
sme = SMOTE()
X_res, y_res = sme.fit_resample(X, y)
print(f'Original train dataset shape: {Counter(y)}')
# Original train dataset shape: Counter({1: 4679, 0: 321})
print(f'Resampled train dataset shape: {Counter(y_res)}\n')
# Resampled train dataset shape: Counter({0: 4679, 1: 4679})
关于python - imblearn smote+enn 采样了多数类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55462124/
让我们假设以下代码(来自 imblearn example on pipelines) ... # Instanciate a PCA object for the sake of easy v
我想使用 imbalanced-learn 模块中的 RandomOverSampler 函数对具有两个以上类别的数据执行过采样。以下是我的 3 个类的代码: import numpy as np f
目前我正在构建一个具有严重不平衡数据的分类器。我使用 imblearn 管道首先进行 StandardScaling、SMOTE,然后使用 gridSearchCV 进行分类。这确保了上采样在交叉验证
我有一个不平衡的数据集,当我尝试使用 SMOTEENN 来平衡他时,多数类的数量减少了一半 我尝试使用提供的所有选项更改“sampling_strategy”参数,但没有帮助 from imblear
我尝试运行以下代码: from imblearn import under_sampling, over_sampling from imblearn.over_sampling import SMO
有谁知道在使用 imblearn 的 RandomUnderSampler 欠采样后是否/如何获得所选样本的索引?曾经有参数“return_indices=True”,现在已从新版本中删除,并且可能被
有谁知道在使用 imblearn 的 RandomUnderSampler 欠采样后是否/如何获得所选样本的索引?曾经有参数“return_indices=True”,现在已从新版本中删除,并且可能被
在对训练数据进行交叉验证以验证我的超参数之前,我已将我的数据拆分为训练/测试。我有一个不平衡的数据集,想在每次迭代中执行 SMOTE 过采样,所以我使用 imblearn 建立了一个管道. 我的理解是
我希望使用 imblearn 的 SMOTE 为机器学习算法生成合成样本。我有一些分类特征,我已使用 sklearn preprocessing.LabelEncoder 将其转换为整数。 我遇到的问
我正在尝试使用 imblearn 绘制 ROC 曲线,但遇到了一些问题。 这是我的数据截图 from imblearn.over_sampling import SMOTE, ADASYN from
我一直在尝试对我的数据集进行过采样,因为它不平衡。我正在进行二进制文本分类,并希望在我的两个类之间保持 1 的比率。我正在尝试 SMOTE 机制来解决问题。 我遵循了这个教程: https://bec
我安装了 https://github.com/glemaitre/imbalanced-learn在 Windows PowerShell 上使用 pip install、conda 和 githu
我正在尝试使用 Pipeline 和 imblearn 中的 GridSearchCV 类来获得对不平衡数据集进行分类的最佳参数。根据提到的答案 here ,我想省略验证集的重采样,只重采样训练集,i
我在 ANACONDA Navigator 上安装了“不平衡学习”(版本 0.3.1)。 当我使用 Jupyter (Python 3) 从不平衡学习网站运行一个示例时,我收到了一条关于“Module
我正在尝试在管道内实现 imblearn 的 SMOTE。我的数据集是存储在 Pandas 数据框中的文本数据。请看下面的代码片段 text_clf =Pipeline([('vect', Tfidf
我想对我的数据集重新采样。这包括带有 3 个类别标签的分类转换数据。每类样本数量为: A 类数量:6945 B 类数量:650 C 类计数:9066 样本总数:16661 不带标签的数据形状为(166
我正在尝试使用 imblearn 库中的 SMOTE 包: from imblearn.over_sampling import SMOTE 收到以下错误信息: ImportError: cannot
我有这个代码: 从 imblearn.over_sampling 导入 ADASYN Y = df.target X = df.drop('target', axis=1) ad = ADASYN()
在安装了所需的模块后,我正在尝试将imblearn导入到我的Python笔记本中。但是,我收到以下错误:。。附加信息:我使用的是一个用Visual Studio代码编写的虚拟环境。。我已经确定venv
我是一名优秀的程序员,十分优秀!