python - 如何创建包含特征选择和 KerasClassifier 的 sklearn 管道？ GridSearchCV 期间 input

python - 如何创建包含特征选择和 KerasClassifier 的 sklearn 管道？ GridSearchCV 期间 input_dim 发生变化的问题

转载作者：行者123 更新时间：2023-12-04 15:35:56

我创建了一个 sklearn 管道，该管道使用 SelectPercentile(f_classif) 进行特征选择并通过管道传输到 KerasClassifier。用于 SelectPercentile 的百分位数是网格搜索中的超参数。这意味着在 gridsearch 期间输入维度会有所不同，我一直没有成功设置 KerasClassifier 的 input_dim 以相应地适应这个参数。

我不认为有一种方法可以访问在 sklearn 的 GridSearchCV 中的 KerasClassifier 中传输的减少的数据维度。也许有一种方法可以在管道中的 SelectPercentile 和 KerasClassifier 之间共享一个超参数(以便百分位超参数可以确定 input_dim)？我想一个可能的解决方案是构建一个自定义分类器，将管道中的两个步骤包装成一个步骤，以便可以共享百分位超参数。

到目前为止，错误始终产生“ValueError:检查输入时出错:预期 dense_1_input 具有形状 (112,) 但在模型拟合期间得到形状为 (23,) 的数组”。

def create_baseline(input_dim=10, init='normal', activation_1='relu', activation_2='relu', optimizer='SGD'):
    # Create model
    model = Sequential()
    model.add(Dense(50, input_dim=np.shape(X_train)[1], kernel_initializer=init, activation=activation_1))
    model.add(Dense(25, kernel_initializer=init, activation=activation_2))
    model.add(Dense(1, kernel_initializer=init, activation='sigmoid'))
    # Compile model
    model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=["accuracy"])
    return model

tuned_parameters = dict(
                            anova__percentile = [20, 40, 60, 80],
                            NN__optimizer = ['SGD', 'Adam'],
                            NN__init = ['glorot_normal', 'glorot_uniform'],
                            NN__activation_1 = ['relu', 'sigmoid'],
                            NN__activation_2 = ['relu', 'sigmoid'],
                            NN__batch_size = [32, 64, 128, 256]
                        )

kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=2)
for train_indices, test_indices in kfold.split(data, labels):
    # Split data
    X_train = [data[idx] for idx in train_indices]
    y_train = [labels[idx] for idx in train_indices]
    X_test = [data[idx] for idx in test_indices]
    y_test = [labels[idx] for idx in test_indices]

    # Pipe feature selection and classifier together
    anova = SelectPercentile(f_classif)
    NN = KerasClassifier(build_fn=create_baseline, epochs=1000, verbose=0)
    clf = Pipeline([('anova', anova), ('NN', NN)])      

    # Train model
    clf = GridSearchCV(clf, tuned_parameters, scoring='balanced_accuracy', n_jobs=-1, cv=kfold)
    clf.fit(X_train, y_train)
    # Test model
    y_true, y_pred = y_test, clf.predict(X_test)

最佳答案

我找到的解决方案是在 ANOVASelection 期间声明转换后的 X 的全局变量，然后在 create_model 中定义 input_dim 时访问该变量。

# Custom class to allow shape of transformed x to be known to classifier
class ANOVASelection(BaseEstimator, TransformerMixin):
    def __init__(self, percentile=10):
        self.percentile = percentile
        self.m = None
        self.X_new = None
        self.scores_ = None

    def fit(self, X, y):
        self.m = SelectPercentile(f_classif, self.percentile)
        self.m.fit(X,y)
        self.scores_ = self.m.scores_
        return self

    def transform(self, X):
        global X_new
        self.X_new = self.m.transform(X)
        X_new = self.X_new
        return self.X_new


# Define neural net architecture 
def create_model(init='normal', activation_1='relu', activation_2='relu', optimizer='SGD', decay=0.1):
    clear_session()
    # Determine nodes in hidden layers (Huang et al., 2003)
    m = 1 # number of ouput neurons
    N = np.shape(data)[0] # number of samples
    hn_1 = int(np.sum(np.sqrt((m+2)*N)+2*np.sqrt(N/(m+2))))
    hn_2 = int(m*np.sqrt(N/(m+2)))
    # Create layers
    model = Sequential()

    if optimizer == 'SGD':
        model.add(Dense(hn_1, input_dim=np.shape(X_new)[1], kernel_initializer=init,
                        kernel_regularizer=regularizers.l2(decay/2), activation=activation_1))
        model.add(Dense(hn_2, kernel_initializer=init, kernel_regularizer=regularizers.l2(decay/2),
                        activation=activation_2))
    elif optimizer == 'AdamW':
        model.add(Dense(hn_1, input_dim=np.shape(X_new)[1], kernel_initializer=init,
                        kernel_regularizer=regularizers.l2(decay), activation=activation_1))
        model.add(Dense(hn_2, kernel_initializer=init, kernel_regularizer=regularizers.l2(decay),
                        activation=activation_2))

    model.add(Dense(1, kernel_initializer=init, activation='sigmoid'))
    if optimizer == 'SGD':
        model.compile(loss='binary_crossentropy', optimizer=optimizer, metrics=["accuracy"])
    if optimizer == 'AdamW':
        model.compile(loss='binary_crossentropy', optimizer=AdamW(), metrics=["accuracy"])
    return model


tuned_parameters = dict(
                            ANOVA__percentile = [20, 40, 60, 80],
                            NN__optimizer = ['SGD', 'AdamW'],
                            NN__init = ['glorot_normal', 'glorot_uniform'],
                            NN__activation_1 = ['relu', 'sigmoid'],
                            NN__activation_2 = ['relu', 'sigmoid'],
                            NN__batch_size = [32, 64, 128, 256],
                            NN__decay = [10.0**i for i in range(-10,-0) if i%2 == 1]
                        )

kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=2)
for train_indices, test_indices in kfold.split(data, labels):
    # Ensure models from last iteration have been cleared.
    clear_session()

    # Learning Rate
    clr = CyclicLR(mode='triangular', base_lr=0.001, max_lr=0.6, step_size=5) 

    # Split data
    X_train = [data[idx] for idx in train_indices]
    y_train = [labels[idx] for idx in train_indices]
    X_test = [data[idx] for idx in test_indices]
    y_test = [labels[idx] for idx in test_indices]

    # Apply mean and variance center based on training fold
    scaler = StandardScaler().fit(X_train)
    X_train = scaler.transform(X_train)
    X_test = scaler.transform(X_test)

    # Memory handling
    cachedir = tempfile.mkdtemp()
    mem = Memory(location=cachedir, verbose=0)
    f_classif = mem.cache(f_classif)

    # Build and train model
    ANOVA = ANOVASelection(percentile=5)
    NN = KerasClassifier(build_fn=create_model, epochs=1000, verbose=0)
    clf = Pipeline([('ANOVA', ANOVA), ('NN', NN)])
    clf = GridSearchCV(clf, tuned_parameters, scoring='balanced_accuracy', n_jobs=28, cv=kfold)
    clf.fit(X_train, y_train, NN__callbacks=[clr])

    # Test model
    y_true, y_pred = y_test, clf.predict(X_test)

关于python - 如何创建包含特征选择和 KerasClassifier 的 sklearn 管道？ GridSearchCV 期间 input_dim 发生变化的问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59755378/

文章推荐： cqrs - 在 Event Sourcing 中创建大型事件是否可以？

文章推荐： apl - 在 APL 中定义普适函数

文章推荐： django - 如何始终为特定的 Django 模型预取相关

python - sklearn 已安装，但 'sklearn' 不是我的 "sklearn.py"文件中的包
我知道有几个类似的问题被问到，但我的问题仍然没有得到解答。问题来了。我使用命令 python3 -m pip3 install -U scikit-learn 来安装 sklearn、numpy 和
python - 输入适用于 sklearn.linear 和 sklearn.ensemble 中的某些 sklearn 模型，但不适用于其他模型
_train_weather.values : [[ 0.61818182 0.81645199 0.6679803 ..., 0. 0. 1.
Python、Sklearn : How to reverse train_test_split of Sklearn?
如果我有一个数据集X及其标签Y，那么我将其分为训练集和测试集，scle为0.2，并使用随机种子进行洗牌: 11 >>>X.shape (10000, 50,50) train_data, test_d
python - sklearn : sklearn. 数组的预处理 DeprecationWarning
首先我查看了所有相关问题。给出了非常相似的问题。所以我遵循了链接中的建议，但没有一个对我有用。 Data Conversion Error while applying a function to
python sklearn : what is the different between "sklearn.preprocessing.normalize(X, norm=' l 2')" and "sklearn.svm.LinearSVC(penalty=' l 2')"
这里有两种标准化方法: 1:这个在数据预处理中使用:sklearn.preprocessing.normalize(X,norm='l2') 2:分类方法中使用另一种方法:sklearn.svm.Li
python - 为什么这段代码可以在不导入 sklearn 的情况下使用 sklearn 函数？
所以刚看了一个教程，作者不需要import sklearn使用时 predict anaconda 环境中pickled 模型的功能(安装了sklearn)。我试图在 Google Colab 中重
python - sklearn.roc_auc_score() 和 sklearn.plot_roc_curve() 之间的区别
我想评估我的机器学习模型。我使用 roc_auc_score() 计算了 ROC 曲线下的面积，并使用 sklearn 的 plot_roc_curve() 函数绘制了 ROC 曲线。在第二个函数中，
python - 是否可以在另一个没有 sklearn 的程序中重用 sklearn 模型 pickle？
我一直在寻找此信息，但在任何地方都找不到，所以这是我的镜头。我是Python 2.7的初学者，我学习了一个模型，感谢cPickle我保存了它，但现在我想知道是否可以从另一个设备(没有sklearn库
python - 导入 sklearn.model_selection.train_test_split 与导入 sklearn.model_selection as sm
>>> import sklearn.model_selection.train_test_split Traceback (most recent call last): File "", li
python - sklearn.lda.LDA() 和 sklearn.discriminant_analysis.LinearDiscriminantAnalysis() 之间的区别
在阅读有关使用 python 的 LinearDiscriminantAnalysis 的过程中，我有两种不同的方法来实现它，可在此处获得， http://scikit-learn.org/stabl
python - 为什么 sklearn.metrics.confusion_matrix 和 sklearn.metrics.plot_confusion_matrix 的函数定义不一致？
我正在使用 sklearn，我注意到 sklearn.metrics.plot_confusion_matrix 的参数和 sklearn.metrics.confusion_matrix不一致。 p
python - Sklearn+Gensim : How to use Gensim's Word2Vec embedding for Sklearn text classification
我正在构建一个多标签文本分类程序，我正在尝试使用 OneVsRestClassifier+XGBClassifier 对文本进行分类。最初，我使用 Sklearn 的 Tf-Idf 矢量化来矢量化文本
scikit-learn - 如何用 epochs 训练 sklearn svm 模型(sklearn.svm.SVC)？
我想看看模型是否收敛于我的交叉验证。我如何增加或减少 sklearn.svm.SVC 中的时代？目前: SVM_Model = SVC(gamma='auto') SVM_Model.fit(X_t
python - from sklearn.model_selection import train_test_split 和 from sklearn.cross_validation import train_test_split 有什么区别
有人可以帮助我吗？我很难知道它们之间的区别 from sklearn.model_selection import train_test_split from sklearn.cross_valida
python - 属性错误: module "sklearn.utils" has no attribute "_joblib" when inheriting class `sklearn.ensemble.BaggingClassifier.`
我需要提取在 sklearn.ensemble.BaggingClassifier 中训练的每个模型的概率。这样做的原因是为了估计 XGBoostClassifier 模型的不确定性。为此，我创建了
python - 无法使用 scikit-learn 0.19.1 导入 sklearn.qda 和 sklearn.lda
无法使用 scikit-learn 0.19.1 导入 sklearn.qda 和 sklearn.lda 我得到: 导入错误:没有名为“sklearn.qda”的模块导入错误:没有名为“sklea
python - 创建版本失败。错误模型检测到错误 : "... No module named ' sklearn. impute._base'; 'sklearn.impute' 不是一个包。 (错误代码:0)“
我正在尝试在 google cloud ai 平台上创建一个版本，但找不到 impute 模块 No module named 'sklearn.impute._base; 'sklearn.impu
python - Pyinstaller 和 sklearn.ensemble : 'ModuleNotFoundError: No module named ' sklearn.neighbors.quad_tree'[2760]'
我在 PyQt5 中编写了一个 GUI，其中包括以下行 from sklearn.ensemble import RandomForestClassifier 。遵循this answer中的建议，
python-3.x - 获取 "ModuleNotFoundError: No module named ' sklearn.impute'"尽管安装了最新的 sklearn (0.19.1)
我正在做一个 Kaggle 比赛，需要输入一些缺失的数据。我安装了最新的Anaconda(4.5.4)具有所有相关依赖项(即 scikit-learn (0.19.1) )。当我尝试导入模块时，出现
How to resolve "cannot import name '_MissingValues' from 'sklearn.utils._param_validation'" issue when trying to import imblearn?(如何解决在尝试导入imblain时“无法从‘sklearn.utils._param_valify’导入名称‘_MissingValues’”的问题？)
在安装了所需的模块后，我正在尝试将imblearn导入到我的Python笔记本中。但是，我收到以下错误：。。附加信息：我使用的是一个用Visual Studio代码编写的虚拟环境。。我已经确定venv

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何创建包含特征选择和 KerasClassifier 的 sklearn 管道？ GridSearchCV 期间 input_dim 发生变化的问题