python-2.7 - 在生产中实现梯度提升回归树 - 以数学方式描述学习模型-6ren

python-2.7 - 在生产中实现梯度提升回归树 - 以数学方式描述学习模型

转载作者：行者123 更新时间：2023-11-30 08:47:26

27

4

我一直在使用逻辑回归(LR，start_params 作为之前(训练)数据集和 L1 正则化获得的参数)来建模我们的用例(使用一些复杂的特征转换)。我在部分相同数据上尝试了梯度提升分类器，它似乎提供了更好的拟合。传统上，我一直使用梯度增强分类器的特征重要性，并将其用作 LR 特征工程的反馈。

我认为全面采用梯度提升(GB)的经典障碍是我不太明白如何将“学习树”公式化为其数学结构。到目前为止我主要使用这些classification和 regression SKLearn 文档中的示例可用于测试和比较预测。

问题:据我所知，梯度提升是一种非参数模型。这是否意味着我永远无法恢复数学结构。抱歉，如果这听起来很原始，但我没有将这些投入生产的经验。也就是说，除非我真正实时学习和预测类别，否则我将如何将标签“分类”为一类或另一类？如何在生产中使用该模型？

# Fit regression model
params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 1,
          'learn_rate': 0.01, 'loss': 'ls'}
clf = ensemble.GradientBoostingRegressor(**params)

pred_object=clf.fit(X_train, y_train)
pred_object
GradientBoostingRegressor(alpha=0.9, init=None, learning_rate=0.01, loss='ls',
             max_depth=4, max_features=None, min_samples_leaf=1,
             min_samples_split=1, n_estimators=500, random_state=None,
             subsample=1.0, verbose=0)
# Next, I get the feature importances, 
pred_object.feature_importances_
array([  3.08111834e-02,   1.44739767e-04,   1.31885157e-02,
         2.68202997e-05,   3.01134511e-02,   2.82639689e-01,
         7.67647932e-02,   5.90503853e-02,   7.86688625e-03,
         2.48124873e-02,   8.52094429e-02,   3.93616279e-02,
         3.50009978e-01])

我深入研究了 dir(pred_object)，但找不到我可以立即理解的内容。考虑到特征重要性数组、损失函数 ='ls'、alpha 和其他参数，是否可以将特定的数学构造放入其中？或者，因为它是一棵树，所以在尝试预测新数据点的类时，它总是会尝试在给定更多数据点(测试集)的情况下“重新平衡”？

最佳答案

有两种方法可以将 GBM“推向生产”。

将数据提取到 python、R 或用于拟合模型的任何语言中。对其进行评分，并将其写回数据库(或任何生产数据存储)。这实际上可以很好地扩展:如果您可以将需要评分的“事件”放入队列中，则可以让 20、100 或 1000 台机器运行 Python 模型的重复副本，独立地对每个“事件”进行评分。
将您的模型编码为 SQL 语句，并在您选择的数据库上运行它。 (如果您使用的是 nosql 数据库或其他数据存储，希望您有某种方式运行 if-then-else 语句)。

1 是非常不言自明的。将生产数据分解为可管理的 block ，并在运行模型的不同机器上对每个 block 进行评分。这需要一些工作来构建基础架构，但您不需要更改任何建模代码。

2 有点难理解:基于树的模型的核心是 if-else 语句的集合:

if var1>10 and var2<3 then outcome = 0
else if var1<10 and var2<3 then outcome = 1
else if var2<10 and var2<1 then outcome = 0

等等

这样的语句很容易在基于 SQL 的数据库中编码，也很容易在大多数编程语言中编码。如果您可以在 python 中循环遍历 GBM 中的每棵树并将其转换为 SQL 语句，则可以通过运行每个 SQL 语句并将其乘以 GBM 的正确权重来对生产中的模型进行评分。这需要您将模型转码为另一种语言，但它可以让您对数据进行评分，而无需将其从数据存储中取出。

关于python-2.7 - 在生产中实现梯度提升回归树 - 以数学方式描述学习模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24478868/

27

4

0

文章推荐： machine-learning - 神经网络不能立即重现？

文章推荐： java - Spring 4 中 ExpressionEvaluationUtils 的替代方案

文章推荐： javascript - addEventListener 取决于 setTimeout

文章推荐： java - 如何使用 AWS Java SDK 禁用请求级日志记录？

python - Pandas 描述 0.18.0 vs Pandas 描述 0.17.0
在一个环境中，我有 pandas 版本 0.17.0 和 numpy 版本 1.10.1。在另一个环境中，我有 pandas 版本 0.18.1 和 numpy 版本 1.10.4。我运行这段代码
dart - 如何在Dart中更改类的打印输出/描述？
This question already has answers here: Default stringify for objects, equivalent to Java's toString
javascript - 描述设置和查看问题
我一直在尝试为我的profile命令嵌入设置一个人们可以更改的简历。我认为它应该有效，但我的代码似乎有问题。相关代码如下: const PREFIX = '!'; var bio = {}; cli
jquery - 获取多个网址的网站标题/描述
我正在尝试获取网站图标、网站标题和外部 URL 列表的描述，最好使用 jquery。我已经成功地为我的网址同步了谷歌的图标服务，任何人都可以阐明如何实现网站标题和描述吗？这是我到目前为止获得图标的内容
java - 描述请求的资源不可用
我在尝试运行代码时收到错误。找不到问题出在哪里。我可能遗漏了一些小细节，如果您能纠正它那就太好了。计算Servlet import java.io.IOException; impo
Mysql - 存储描述和短描述或使用SUBSTRING(描述..)
我的数据库中有两个字段，一个是描述(TEXT)，另一个是short_desc(VARCHAR-200)。当我显示搜索结果时，我显然使用了short_desc，当有人点击该项目时，他们会得到完整的描述
java - 描述客户端发送的请求语法不正确
当我尝试通过ajax和Jquery调用 Controller 上的save方法时，我正在使用Spring MVC、Jquery、Hibernate和tomcat。单击“保存”按钮时，我在 tomcat
python - 描述()返回所有空值
我试图使用describe()来获取一些描述性统计数据，但获取了应该是数字的nan值。我尝试使用 axis=0 或 axis=1，而 axis=1 产生了正确的数值，但这不是正确的数值我需要; ax
algorithm - 在文件系统中存储字符串+描述
我有超过 1 亿个字符串要存储在文件系统中。与字符串 (~255Chars utf8) 一起，将有两个日期和一些定义其属性的整数值。我可以将它们放在一个 CSV 文件中，但它会很大。我可以将几个较小
javascript - Jenkins 描述
有没有办法将 JavaScript 合并到 Jenkins 顶部的描述字段中？每当我添加脚本标签时，当您查看源代码时，它都会被 Jenkins 删除。如果有人有建议或方向指出我，那就太好了。
windows - 如何获取异常的名称/描述？
您如何获得 SEH 的名称和/或描述？异常无需必须将字符串硬编码到您的应用程序中？我尝试使用 FormatMessage()，但它有时会截断消息，即使您指定忽略插入也是如此: __asm { //
mysql - 向触发器添加注释(描述)
如果我在 MySQL 中使用 CREATE TRIGGER 语法创建一个触发器，我该如何附加注释来描述它？我的意思是在声明中或之后对我来说是一样的。我想不通。对于表格，您可以在声明末尾添加 COMM
sql - 描述 IT 环境的数据库模型
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
音量控制键控制的音频流(setVolumeControlStream)描述
当开发多媒体应用或者游戏应用的时候，需要使用音量控制键来设置程序的音量大小。在Android系统中有多中音频流，通过Activity中的函数 setVolumeControlStream(int s
scala - 描述 Slick 中的可选字段
Slick DSL 允许通过两种方式在表中创建可选字段。对于这个案例类: case class User(id: Option[Long] = None, fname: String, lname:
kubernetes - 描述 pod 信息
如果不属于默认命名空间，我如何描述 pod 信息。使用默认命名空间我没有任何问题。但我想获得与命名空间对齐的特定 pod 的信息。但是，当我想描述我可以制作的同一个 pod 时，请参阅我尝试使用
vim - 描述 vim 替换
在我使用过的几乎所有 vim 副本中，程序都会在替换文本后给出更改的描述。 (例如，将显示类似“20 行 92 个替换”之类的内容。) 我现在正在使用默认情况下不这样做的 vim 副本。是否有一个简
json - 描述 JSON 模式的工具
我正在编写规范，需要描述一些 JSON 对象。单独的文本和选项卡往往会使大型 JSON 变得过于困惑。是否有任何在线(最好)工具可以创建类似于 http://www.json.org/ 上的图表的工具
dns - 描述 kubernetes 命名空间时的随机字符
我正在尝试通过 DNS 将我的 Kubernetes 部署连接在一起。我有一个 Java (Spring Boot) 部署和一个 javascript (node.js) 部署，两者都通过默认的 C
glsl - WebGL vec4() 描述
我只是在学习 WebGL 图形编程。我正在检查包含该语句的某人的代码 // multiply the position by the matrix. gl_Position = vec4((u_ma

首页

博学

6Ren·AI

商城

python-2.7 - 在生产中实现梯度提升回归树 - 以数学方式描述学习模型