gpt4 book ai didi

python - scikit-学习管道 : grid search over parameters of transformer to generate data

转载 作者:太空宇宙 更新时间:2023-11-03 12:06:09 24 4
gpt4 key购买 nike

我想使用 scikit-learn 管道的第一步生成玩具数据集,以评估我的分析性能。我提出的一个尽可能简单的示例解决方案如下所示:

import numpy as np
from sklearn.pipeline import Pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.base import TransformerMixin
from sklearn import cluster

class FeatureGenerator(TransformerMixin):

def __init__(self, num_features=None):
self.num_features = num_features

def fit(self, X, y=None, **fit_params):
return self

def transform(self, X, **transform_params):
return np.array(
range(self.num_features*self.num_features)
).reshape(self.num_features,
self.num_features)

def get_params(self, deep=True):
return {"num_features": self.num_features}

def set_params(self, **parameters):
self.num_features = parameters["num_features"]
return self

这个变压器在行动中将 e。 G。像这样调用:

pipeline = Pipeline([
('pick_features', FeatureGenerator(100)),
('kmeans', cluster.KMeans())
])

pipeline = pipeline.fit(None)
classes = pipeline.predict(None)
print classes

一旦我尝试通过此管道进行网格搜索,它就变得棘手了:

parameter_sets = {
'pick_features__num_features' : [10,20,30],
'kmeans__n_clusters' : [2,3,4]
}

pipeline = Pipeline([
('pick_features', FeatureGenerator()),
('kmeans', cluster.KMeans())
])

g_search_estimator = GridSearchCV(pipeline, parameter_sets)

g_search_estimator.fit(None,None)

网格搜索需要样本和标签作为输入,并且不如管道那么健壮,它不会提示 None 作为输入参数:

TypeError: Expected sequence or array-like, got <type 'NoneType'>

这是有道理的,因为网格搜索需要将数据集划分到不同的 cv 分区中。


除了上面的例子,我还有很多参数,可以在数据集生成步骤中进行调整。因此,我需要一个解决方案来将此步骤包含在我的参数选择交叉验证中。

问题有没有办法从第一个转换器内部设置 GridSearch 的 Xy?或者一个解决方案看起来如何,它调用具有多个不同数据集(最好是并行的)的 GridSearch?或者有没有人尝试过自定义 GridSearchCV 或者可以指出一些关于此的阅读 Material ?

最佳答案

您的代码非常干净,因此很高兴为您提供这个快速而肮脏的解决方案:

g_search_estimator.fit([1., 1., 1.],[1., 0., 0.])
g_search_estimator.best_params_

输出:

[tons of int64 to float64 conversion warnings]
{'kmeans__n_clusters': 4, 'pick_features__num_features': 10}

请注意,您需要 3 个样本,因为您正在进行(默认)3 折交叉验证。

你得到的错误是由于 GridSearchCV 对象执行的检查而发生的,所以它发生在你的转换器有机会做任何事情之前。所以我会对你的第一个问题说“不”:

Is there a way to set the Xs and ys of the GridSearch from inside the first transformer?

编辑:
我意识到这是不必要的混淆,以下三行是等效的:g_search_estimator.fit([1., 1., 1.], [1., 0., 0.])g_search_estimator.fit([1., 1., 1.], 无)g_search_estimator.fit([1., 1., 1.])

抱歉匆忙地在其中乱扔了随机的 y

关于网格搜索如何计算不同网格点分数的一些解释:当您将 scoring=None 传递给 GridSearchCV 构造函数时(这是默认值,所以这就是你在这里),它向估计器询问得分函数。如果有这样的功能,则用于评分。对于 KMeans,默认得分函数基本上与聚类中心的距离总和相反。
这是一个无监督指标,因此此处不需要 y

总结起来,您将始终能够:

set the Xs of the GridSearch from inside the first transformer

只要将输入的X“转换”成完全不相关的东西,就不会有人提示了。不过,您确实需要一些输入random_X
现在,如果您想使用受监督的指标(我对您的问题有这种感觉),您还需要指定 y
一个简单的场景是你有一个固定的 y 向量,你想用它尝试几个 X。然后你可以这样做:

g_search_estimator.fit(random_X, y, scoring=my_scoring_function)

它应该运行良好。如果您想搜索 y 的不同值,可能会有点棘手。

关于python - scikit-学习管道 : grid search over parameters of transformer to generate data,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31655950/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com