scikit-learn中的Pipeline：构建高效、可维护的机器学习流程

转载作者：撒哈拉更新时间：2024-12-08 22:25:25

我们使用scikit-learn进行机器学习的模型训练时，用到的数据和算法参数会根据具体的情况相应调整变化，。

但是，整个模型训练的流程其实大同小异，一般都是加载数据，数据预处理，特征选择，模型训练等几个环节.

如果训练的结果不尽如人意，从数据预处理开始，再次重新训练.

今天介绍的Pipeline（中文名称：流水线），是一种将多个机器学习步骤整合在一起的工具.

它可以帮助我们简化了机器学习过程.

1. 什么是 Pipeline

在 scikit-learn 中，Pipeline就像是一个工业生产流水线，把数据预处理、特征选择、模型训练等多个环节按顺序连接起来.

例如，一个典型的机器学习流程可能包括数据标准化、主成分分析（PCA）进行特征提取，最后使用一个分类器（如支持向量机）进行分类.

在没有Pipeline流水线的时候，你需要分别对每个步骤进行处理，手动将一个步骤的输出传递给下一个步骤。而Pipeline允许你把这些步骤封装到一个对象中，以更简洁和高效的方式来处理整个机器学习流程.

从代码角度看，流水线是由一系列的(key, value)对组成.

其中key是一个自定义的名称，用于标识步骤；。

value是一个实现了fit_transform方法的 scikit-learn 转换器（用于数据预处理和特征提取等），或者是一个仅实现了fit方法的估计器（用于模型训练和预测）.

2. Pipeline 的作用和优势

2.1. 简化训练流程

使用Pipeline能带来的最大的好处就是简化机器学习模型的训练流程，。

我们不用在每次训练模型或者进行预测的时候，手动地逐个调用数据预处理、特征工程和模型训练的步骤.

比如下面这个示例，没有Pipeline时:

from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import numpy as np

# 生成一些模拟数据
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

# 数据标准化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
# 多项式特征扩展
poly = PolynomialFeatures(degree = 2)
X_poly = poly.fit_transform(X_scaled)
# 线性回归模型训练
model = LinearRegression()
model.fit(X_poly, y)

而使用流水线，代码可以简化为:

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression
import numpy as np

# 生成一些模拟数据
X = np.random.rand(100, 1)
y = 2 * X + 1 + 0.1 * np.random.randn(100, 1)

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('poly', PolynomialFeatures(degree = 2)),
    ('model', LinearRegression())
])
pipeline.fit(X, y)

这样不仅可以减少代码量，还能使代码结构更加清晰.

2.2. 避免数据泄露

在机器学习中，数据泄露是一个严重的问题.

例如，在进行数据预处理和模型选择时，如果不小心将测试数据的信息泄露到训练数据的处理过程中，会导致模型在测试集上的评估结果过于乐观.

Pipeline可以确保每个步骤只使用它应该使用的数据，在Pipeline中，训练数据按照步骤依次处理，测试数据也会以相同的顺序和方式处理，这样就可以很好地避免数据泄露.

而在交叉验证过程中，Pipeline会自动将每个折叠（fold）的数据按照正确的步骤顺序进行处理.

如果手动处理各个步骤，很容易在交叉验证的过程中错误地使用了全部数据进行预处理，从而导致数据泄露.

2.3. 方便模型调参

可以将整个Pipeline当作一个模型来进行参数调整.

例如，对于一个包含数据预处理和分类器的Pipeline，可以通过网格搜索（Grid Search）或者随机搜索（Random Search）等方法来同时调整预处理步骤和分类器的参数.

再比如一个包含标准化和支持向量机分类器的Pipeline，我们可以同时调整标准化的参数（如with_mean和with_std）和支持向量机的参数（如C和gamma）来找到最佳的模型配置.

3. Pipeline 使用示例

示例是最好的学习资料，下面使用scikit-learn 库中的 datasets 来分别构造回归、分类和聚类问题的Pipeline示例.

3.1. 预测糖尿病示例

此示例先对糖尿病数据进行标准化，然后使用线性回归模型进行房价预测.

from sklearn.datasets import load_diabetes
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 加载糖尿病数据集
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])

# 在训练集上训练模型
pipeline.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = pipeline.predict(X_test)

# 计算均方误差（MSE）来评估模型在测试集上的性能
mse = mean_squared_error(y_test, y_pred)
print("均方误差（MSE）:", mse)

# 计算决定系数（R² 分数）来进一步评估模型拟合优度
r2 = r2_score(y_test, y_pred)
print("决定系数（R² 分数）:", r2)

最后分别使用均方误差（MSE）和决定系数（R² 分数）这两个常见的回归评估指标来衡量模型在测试集上的性能表现，帮助了解模型对糖尿病相关指标预测的准确程度和拟合效果.

3.2. 鸢尾花分类示例

先标准化鸢尾花数据，接着使用支持向量机分类器对手鸢尾花种类进行分类.

from sklearn.datasets import load_iris
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', SVC())
])

# 在训练集上训练模型
pipeline.fit(X_train, y_train)

# 在测试集上进行预测
y_pred = pipeline.predict(X_test)

# 计算准确率来评估模型在测试集上的性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)

3.3. 手写数字聚类示例

先对数据进行标准化，再使用 K-Means 算法对手写数字图像数据进行聚类，这里简单地假设聚为** 10 类**.

from sklearn.datasets import load_digits
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split

# 加载手写数字数据集
digits = load_digits()
X = digits.data

# 划分训练集和测试集（在聚类场景下，划分训练集更多是一种常规操作示例，实际聚类分析中根据具体需求而定）
X_train, X_test = train_test_split(X, test_size=0.2, random_state=42)

pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('clusterer', KMeans(n_clusters=10))  # 假设分为10类，因为手写数字有0-9
])

# 在训练集（这里可看作全部数据用于聚类学习的示例情况）上进行聚类训练
pipeline.fit(X_train)

# 获取聚类标签
cluster_labels = pipeline['clusterer'].labels_

# 简单打印测试集上部分数据的聚类标签示例
print("测试集部分数据的聚类标签示例:")
print(cluster_labels[:10])

注：上面的示例我在本机的 sckilit-learn 1.5.2 版本上都运行通过.

4. 总结

Pipeline给我们的模型训练带来了便利，。

不过，为了用好Pipeline，使用时有些地方需要我们特别注意.

首先是步骤顺序，数据会按照步骤的顺序依次进行处理.

例如，如果你要先进行特征选择，然后进行数据标准化，那么你需要将特征选择步骤放在标准化步骤之前。如果顺序错误，可能会导致模型性能下降或者无法正常运行.

其次，各个步骤的接口兼容性也很重要，Pipeline中的每个步骤都需要满足一定的接口要求.

对于数据预处理步骤（转换器），需要实现fit和transform（或者fit_transform）方法；。

对于模型训练步骤（估计器），需要实现fit方法.

如果自定义的步骤没有正确实现这些方法，流水线在运行时会出现错误.

最后，使用Pipeline进行参数调整时，需要注意参数的命名.

在Pipeline中，参数的名称是由步骤名称和实际参数名称组合而成的.

例如，如果你有一个名为scaler的标准化步骤，其中有一个参数with_mean，那么在参数调整时，参数名称应该是scaler__with_mean.

这种命名方式可以确保正确地调整每个步骤中的参数.

最后此篇关于scikit-learn中的Pipeline：构建高效、可维护的机器学习流程的文章就讲到这里了,如果你想了解更多关于scikit-learn中的Pipeline：构建高效、可维护的机器学习流程的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

文章推荐：分布式系统架构1：共识算法Paxos

文章推荐：如何优雅地在Django项目里生成不重复的ID？

文章推荐：渗透测试必备-火狐浏览器插件一键安装

文章推荐： Java根据前端返回的字段名进行查询数据

java - JFrame 中的 JPanel 中的 JScrollPane 中的 JTextPane
我想做的是让 JTextPane 在 JPanel 中占用尽可能多的空间。对于我使用的 UpdateInfoPanel: public class UpdateInfoPanel extends JP
java - JFrame 中的 JPanel 中的 JTextArea 中的 JScrollPane 出现问题
我在 JPanel 中有一个 JTextArea，我想将其与 JScrollPane 一起使用。我正在使用 GridBagLayout。当我运行它时，框架似乎为 JScrollPane 腾出了空间，但
ios - iOs Xcode 中的 UIViewController 中的 UIView 中的 UITableView
我想在 xcode 中实现以下功能。我有一个 View Controller 。在这个 UIViewController 中，我有一个 UITabBar。它们下面是一个 UIView。将 UITab
sql - 与 SQL 中的 STUFF 等效的函数(MySQL 中的 GROUP_CONCAT/Oracle 中的 LISTAGG)
有谁知道Firebird 2.5有没有类似于SQL中“STUFF”函数的功能？我有一个包含父用户记录的表，另一个表包含与父相关的子用户记录。我希望能够提取用户拥有的“ROLES”的逗号分隔字符串，而
Mirth 中的 Json 解析或 Mirth 中的 Json 或 Mirth 中的 HL7 到 JSON
我想使用 JSON 作为 mirth channel 的输入和输出，例如详细信息保存在数据库中或创建 HL7 消息。简而言之，输入为 JSON 解析它并输出为任何格式。最佳答案 var objec
python - 如果文件 1 中的 A 列 = 文件 2 中的 A 列，则替换为文件 2 中的 B 列
通常我会使用 R 并执行 merge.by，但这个文件似乎太大了，部门中的任何一台计算机都无法处理它! (任何从事遗传学工作的人的附加信息)本质上，插补似乎删除了 snp ID 的 rs 数字，我只剩
Javascript 中的 HAML 中的 Javascript
我有一个以前可能被问过的问题，但我很难找到正确的描述。我希望有人能帮助我。在下面的代码中，我设置了varprice，我想添加javascript变量accu_id以通过rails在我的数据库中查找记
HTML 中的 SVG 中的 HTML
我有一个简单的 SVG 文件，在 Firefox 中可以正常查看 - 它的一些包装文本使用 foreignObject 包含一些 HTML - 文本包装在 div 中:
ruby - Ruby 中的 If block 中的 "Or"
所以我正在为学校编写一个 Ruby 程序，如果某个值是 1 或 3，则将 bool 值更改为 true，如果是 0 或 2，则更改为 false。由于我有 Java 背景，所以我认为这段代码应该有效:
amazon-web-services - 如何从账户 A 中的 Lambda(VPC 中的 Lambda)调用账户 B(VPC 中的此 Lambda)中的 AWS Lambda 函数
我做了什么: 我在这些账户之间创建了 VPC 对等连接互联网网关也连接到每个 VPC 还配置了路由表(以允许来自双方的流量) 情况1: 当这两个 VPC 在同一个账户中时，我成功测试了从另一个 La
php - 如何获取 column1 中的 value1 和 column2 中的 value2 但 column1 中的 value2 在 column2 中没有 value1 的行？
我有一个名为 contacts 的表: user_id contact_id 10294 10295 10294 10293 10293 10294 102
php - Magento 中的 foreach 中的 getChildHtml
我正在使用 Magento 中的新模板。为避免重复代码，我想为每个产品预览使用相同的子模板。特别是我做了这样一个展示: $products = Mage::getModel('catalog/pro
protocols - Elixir 中的 "for"中的 "defimpl"实际上检查了什么？
“for”是否总是检查协议(protocol)中定义的每个函数中第一个参数的类型？编辑(改写): 当协议(protocol)方法只有一个参数时，根据该单个参数的类型(直接或任意)找到实现。当协议(p
javascript - PHP 中的 JavaScript 中的 PHP
我想从我的 PHP 代码中调用 JavaScript 函数。我通过使用以下方法实现了这一点: echo ' drawChart($id); '; 这工作正常，但我想从我的 PHP 代码中获取数据，我使
javascript - html 中的 html 中的 JavaScript
这个问题已经有答案了: Event binding on dynamically created elements? (23 个回答) 已关闭 5 年前。我有一个动态表单，我想在其中附加一些其他 h
javascript - componentDidMount() 中的 .map 中的 setState
我正在尝试找到一种解决方案，以在 componentDidMount 中的映射项上使用 setState。我正在使用 GraphQL连同 Gatsby返回许多 data 项目，但要求在特定的 pat
android - ScrollView 中的 View 中的 OnTouchListener
我在 ScrollView 中有一个 View 。只要用户按住该 View ，我想每 80 毫秒调用一次方法。这是我已经实现的: final Runnable vibrate = new Runnab
android - GetStringUTFChars 中的 dvmDecodeIndirectRef 中的 dvmAbort
我用 jni 开发了一个 android 应用程序。我在 GetStringUTFChars 的 dvmDecodeIndirectRef 中得到了一个 dvmabort。我只中止了一次。为什么会这
android - Activity 中的 FragmentPagerAdapter 中的 RecyclerView
当我到达我的 Activity 时，我调用 FragmentPagerAdapter 来处理我的不同选项卡。在我的一个选项卡中，我想显示一个 RecyclerView，但他从未出现过，有了断点，我看到
android - Activity 中的 DialogFragment 中的 RecyclerView
当我按下 Activity 中的按钮时，会弹出一个 DialogFragment。在对话框 fragment 中，有一个看起来像普通 ListView 的 RecyclerView。我想要的行为是当

撒哈拉

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城