gpt4 book ai didi

python - 当重采样方法不适用于文本时,如何创建用于文本分类的 SMOTE 管道步骤?

转载 作者:太空宇宙 更新时间:2023-11-03 15:20:10 29 4
gpt4 key购买 nike

我有一个多标签分类问题,存在巨大的类不平衡问题,因此我想使用 SMOTE 创建一个管道步骤,但由于 X 基本上是文本,Y 是所述标签的 1 和 0 数组,我不能仅以这种方式插入 SMOTE(),因为它需要拟合和转换。

pipeline = Pipeline([
('smote', SMOTE()),
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('ss', StandardScaler(with_mean=False)),
('clf', model),
])

最佳答案

当前版本的不平衡学习带有它自己的 pipeline 。您应该能够将其合并到您的 sklearn 管道中。您只需在 sklearn 导入后添加此行,确保它覆盖之前导入的管道的 sklearn 版本,然后像使用 sklearn 管道一样使用它。

from imblearn.pipeline import Pipeline

关于python - 当重采样方法不适用于文本时,如何创建用于文本分类的 SMOTE 管道步骤?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43599130/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com