gpt4 book ai didi

python - scikit-learn 管道中具有递归特征消除的网格搜索返回错误

转载 作者:太空狗 更新时间:2023-10-29 18:34:03 27 4
gpt4 key购买 nike

我正在尝试使用 scikit-learn 在管道中链接网格搜索和递归特征消除。

带有“裸”分类器的 GridSearchCV 和 RFE 工作正常:

from sklearn.datasets import make_friedman1
from sklearn import feature_selection
from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVR

X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

est = SVR(kernel="linear")

selector = feature_selection.RFE(est)
param_grid = dict(estimator__C=[0.1, 1, 10])
clf = GridSearchCV(selector, param_grid=param_grid, cv=10)
clf.fit(X, y)

将分类器放入管道中会返回错误:RuntimeError: The classifier does not expose "coef_"or "feature_importances_"attributes

from sklearn.datasets import make_friedman1
from sklearn import feature_selection
from sklearn import preprocessing
from sklearn import pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVR

X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

est = SVR(kernel="linear")

std_scaler = preprocessing.StandardScaler()
pipe_params = [('std_scaler', std_scaler), ('clf', est)]
pipe = pipeline.Pipeline(pipe_params)

selector = feature_selection.RFE(pipe)
param_grid = dict(estimator__clf__C=[0.1, 1, 10])
clf = GridSearchCV(selector, param_grid=param_grid, cv=10)
clf.fit(X, y)

编辑:

我意识到我没有把问题描述清楚。这是更清晰的片段:

from sklearn.datasets import make_friedman1
from sklearn import feature_selection
from sklearn import pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVR

X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

# This will work
est = SVR(kernel="linear")
selector = feature_selection.RFE(est)
clf = GridSearchCV(selector, param_grid={'estimator__C': [1, 10]})
clf.fit(X, y)

# This will not work
est = pipeline.make_pipeline(SVR(kernel="linear"))
selector = feature_selection.RFE(est)
clf = GridSearchCV(selector, param_grid={'estimator__svr__C': [1, 10]})
clf.fit(X, y)

如您所见,唯一的区别是将估算器放入管道中。然而,管道隐藏了“coef_”或“feature_importances_”属性。问题是:

  1. 在 scikit-learn 中有处理这个问题的好方法吗?
  2. 如果不是,是否出于任何原因需要这种行为?

编辑 2:

根据@Chris 提供的答案更新了工作片段

from sklearn.datasets import make_friedman1
from sklearn import feature_selection
from sklearn import pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVR


class MyPipe(pipeline.Pipeline):

def fit(self, X, y=None, **fit_params):
"""Calls last elements .coef_ method.
Based on the sourcecode for decision_function(X).
Link: https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/pipeline.py
----------
"""
super(MyPipe, self).fit(X, y, **fit_params)
self.coef_ = self.steps[-1][-1].coef_
return self


X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

# Without Pipeline
est = SVR(kernel="linear")
selector = feature_selection.RFE(est)
clf = GridSearchCV(selector, param_grid={'estimator__C': [1, 10, 100]})
clf.fit(X, y)
print(clf.grid_scores_)

# With Pipeline
est = MyPipe([('svr', SVR(kernel="linear"))])
selector = feature_selection.RFE(est)
clf = GridSearchCV(selector, param_grid={'estimator__svr__C': [1, 10, 100]})
clf.fit(X, y)
print(clf.grid_scores_)

最佳答案

您对管道的使用有疑问。

管道的工作原理如下:

当您调用 .fit(x,y) 等时,第一个对象应用于数据。如果该方法公开了 .transform() 方法,则会应用此输出并将此输出用作下一阶段的输入。

管道可以将任何有效模型作为最终对象,但所有之前的模型都必须公开 .transform() 方法。

就像管道一样 - 您输入数据,管道中的每个对象都会获取先前的输出并对其进行另一个转换。

正如我们所见,

http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html#sklearn.feature_selection.RFE.fit_transform

RFE 公开了一个转换方法,因此应该包含在管道本身中。例如。

some_sklearn_model=RandomForestClassifier()
selector = feature_selection.RFE(some_sklearn_model)
pipe_params = [('std_scaler', std_scaler), ('RFE', rfe),('clf', est)]

您的尝试存在一些问题。首先,您正在尝试扩展数据的一部分。假设我有两个分区 [1,1]、[10,10]。如果我通过分区的平均值进行归一化,我会丢失我的第二个分区明显高于平均值的信息。您应该在开始时而不是在中间进行扩展。

其次,SVR 没有实现转换方法,您不能将它作为管道中的非最终元素合并。

RFE 采用适合数据的模型,然后评估每个特征的权重。

编辑:

如果您愿意,可以通过将 sklearn 管道包装在您自己的类中来包含此行为。我们想要做的是当我们拟合数据时,检索最后的估计器 .coef_ 方法并将其以正确的名称本地存储在我们的派生类中。我建议你查看 github 上的源代码,因为这只是一个开始,可能需要更多的错误检查等。 Sklearn 使用一个名为 @if_delegate_has_method 的函数装饰器,添加它可以方便地确保方法泛化。我已经运行了这段代码以确保它运行正常,但仅此而已。

from sklearn.datasets import make_friedman1
from sklearn import feature_selection
from sklearn import preprocessing
from sklearn import pipeline
from sklearn.grid_search import GridSearchCV
from sklearn.svm import SVR

class myPipe(pipeline.Pipeline):

def fit(self, X,y):
"""Calls last elements .coef_ method.
Based on the sourcecode for decision_function(X).
Link: https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/pipeline.py
----------
"""

super(myPipe, self).fit(X,y)

self.coef_=self.steps[-1][-1].coef_
return

X, y = make_friedman1(n_samples=50, n_features=10, random_state=0)

est = SVR(kernel="linear")

selector = feature_selection.RFE(est)
std_scaler = preprocessing.StandardScaler()
pipe_params = [('std_scaler', std_scaler),('select', selector), ('clf', est)]

pipe = myPipe(pipe_params)



selector = feature_selection.RFE(pipe)
clf = GridSearchCV(selector, param_grid={'estimator__clf__C': [2, 10]})
clf.fit(X, y)

print clf.best_params_

有什么不明白的,请追问。

关于python - scikit-learn 管道中具有递归特征消除的网格搜索返回错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36683230/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com