gpt4 book ai didi

python - 将不平衡学习与 Pandas DataFrame 结合使用

转载 作者:太空宇宙 更新时间:2023-11-03 23:55:44 24 4
gpt4 key购买 nike

<分区>

我的数据集很不平衡。两个少数类各包含多数类样本的一半。我的 RNN 模型无法了解关于人口最少的类别的任何信息。

我正在尝试使用 imbalanced-learn 库。例如:

sm = SMOTE(random_state=42, n_jobs=-1, k_neighbors=10)
X_train, y_train = sm.fit_resample(train.drop(['label], axis=1), train['label'])

如果 train.drop(['label] 仅包含所用特征的值,则有效。问题是我的 DataFrame 包含一个包含字符串作为值的附加列:我不能删除它,因为那些字符串是我的 RNN 的输入。如果我放弃它,我将无法判断这些字符串属于过采样数据集的哪一行。

有没有办法保留所有列并告诉函数哪些列用于过采样?

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com