r - 为什么在这个最小的例子中 gbm() 给出的结果与 h2o.gbm() 不同？-6ren

r - 为什么在这个最小的例子中 gbm() 给出的结果与 h2o.gbm() 不同？

转载作者：行者123 更新时间：2023-11-30 08:34:04

26

4

修改梯度提升，我注意到 R 的 gbm 包在一个最小的示例中产生与 h2o 不同的结果。为什么？

<小时/>

数据

library(gbm)
library(h2o)

h2o.init()

train <- data.frame(
  X1 = factor(c("A", "A", "A", "B", "B")),
  X2 = factor(c("A", "A", "B", "B", "B")),
  Y = c(0, 1, 3, 4, 7)
)
  X1 X2 Y
1  A  A 0
2  A  A 1
3  A  B 3
4  B  B 4
5  B  B 7

GBM

# (gbm, 1 round, mae)
model.gbm <- gbm(
  Y ~ X1 + X2, data = train, distribution="laplace", n.tree = 1, shrinkage = 1, n.minobsinnode=1, bag.fraction=1, 
  interaction.depth = 1, verbose=TRUE
)
train$Pred.mae.gbm1 <- predict(model.gbm, newdata=train, n.trees=model.gbm$n.trees)

水

# (h2o, 1 round, mae)
model.h2o <- h2o.gbm(
  x=c("X1", "X2"), y="Y", training_frame=as.h2o(train), distribution="laplace", ntrees=1, max_depth=1, 
  learn_rate = 1, min_rows=1
)
train$Pred.mae.h2o1 <- as.data.frame(h2o.predict(model.h2o, as.h2o(train)))$predict

结果

train
  X1 X2 Y Pred.mae.gbm1 Pred.mae.h2o1
1  A  A 0           1.0           0.5
2  A  A 1           1.0           0.5
3  A  B 3           1.0           4.0
4  B  B 4           5.5           4.0
5  B  B 7           5.5           4.0

最佳答案

它们是完全独立的实现，我怀疑它们是否已经根据您使用它的方式进行了调整或设计(即单个树， min_rows 设置为 1)。在这种情况下，看起来 R 的 gbm 已使用其单个树来正确学习“B”输入，而 h2o.gbm已集中在“A”输入上。

当您开始使用真实数据和真实设置时，可能仍然存在差异。有很多参数你没有触及(至少有h2o.gbm()，这是我熟悉的一个)。还有一个随机元素:尝试 seed 的一百个值h2o.gbm() 和一个常量 set.seed()在 R 之前 gbm ，并且您可能会在至少其中一个上得到相同的结果。

关于r - 为什么在这个最小的例子中 gbm() 给出的结果与 h2o.gbm() 不同？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41213721/

26

4

0

文章推荐： javascript - 如何从另一个方法中正确调用类方法

文章推荐： javascript - 任何人都可以解释以下声明吗

文章推荐： javascript - 铯地球聚类

r - gbm::interact.gbm 与 dismo::gbm.interactions
背景 gbm 包的引用手册指出，interact.gbm 函数计算 Friedman 的 H 统计量以评估变量相互作用的强度。 H 统计量的范围为 [0-1]。 dismo 包的引用手册没有引用任何
r - 为什么在这个最小的例子中 gbm() 给出的结果与 h2o.gbm() 不同？
修改梯度提升，我注意到 R 的 gbm 包在一个最小的示例中产生与 h2o 不同的结果。为什么？数据 library(gbm) library(h2o) h2o.init() train <- da
c# - 在 C++ 中部署 GBM 模型 |让 Predict.gbm 在 R 之外工作
有没有办法将 gbm 模型导出到 C++。具体来说，我如何调用 predict.gbm 函数在 R 之外运行以便对新数据集进行评分。我已将模型导出为 PMML 文件，但我不确定新数据集将如何基于 P
gbm - python中使用gridsearchcv进行梯度提升分类器的参数调整
我正在尝试运行 GradientBoostingClassifier()在 gridsearchcv 的帮助下。对于每个参数组合，我还需要表格格式的“精确度”、“召回率”和准确性。这是代码: sc
R gbm 逻辑回归
我希望使用 GBM包进行逻辑回归，但它给出的答案略超出 0-1 范围。我已经尝试了 0-1 预测的建议分布参数( bernoulli 和 adaboost )，但这实际上比使用 gaussian 更糟
r - gbm 函数下标越界
我遇到了一个奇怪的问题。我已在笔记本电脑上成功运行此代码，但是当我尝试首先在另一台计算机上运行它时，我收到此警告未指定分布，假设伯努利...，这是我所期望的，但随后出现此错误:object$var.l
R gbm.more() 函数不适用于所有发行版？
我正在尝试使用 R 中的 gbm.more 函数。为了清楚起见，我使用了规范的虹膜数据。当我指定 distribution="multinomial"时，下面的代码不起作用，但是当我指定 distri
r - 如何在 gbm 函数中打印变量重要性？
我使用了gbm函数来实现梯度提升。我想进行分类。之后，我使用 varImp() 函数在梯度提升建模中打印变量重要性。但是......只有 4 个变量具有非零重要性。我的大数据里有371个变量....对
r - 使用插入符号库预测 GBM 的概率
类似的问题是 asked但是答案中的链接指向随机森林示例，在我的情况下似乎不起作用。这是我正在尝试做的一个例子: gbmGrid <- expand.grid(interaction.depth
r - 分类伯努利分布中的 GBM 误差
为分类问题运行 gbm 函数时。我收到以下错误: Error in res[flag, ] 0.5,1,0) table(pred,df$Group) pred 0 1 0 98
r - GBM 规则生成 - 编码建议
我使用 R 包 GBM 作为预测建模的首选。这个算法有很多很棒的东西，但一个“坏”是我不能轻易地使用模型代码来对 R 之外的新数据进行评分。我想编写可以在 SAS 或其他系统中使用的代码(我将从SAS
r - 使用插入符号和 gbm 方法进行多类分类
我正在解决一个多类分类问题并尝试使用广义提升模型(R 中的 gbm 包)。我面临的问题:插入符号 train功能与 method="gbm"似乎不能正确处理多类数据。下面给出一个简单的例子。 libr
r - 为 gbm 交互强度实现零分布
我正在尝试使用 Friedman 和 Popescu 2008 https://projecteuclid.org/euclid.aoas/1223908046 中描述的方法确定 gbm 模型中的哪些
r - h2o.GBM 在小数据集上花费太长时间
我有一个相当小的数据集(162,000 个观察值，13 个属性)我正在尝试使用 h2o.GBM 进行建模。响应变量是具有大量级别的分类变量(~ 20,000 个级别)该模型没有耗尽内存或给出任何错误，
r - 部分依赖图和梯度提升(GBM 包)
是否可以绘制部分依赖图来显示类概率并估计预测变量对 GBM 的影响？模型？类似于 randomForest 包中的 partialPlot。根据 this article ，部分情节可以用 gbm
python - 获取用于早期停止的 GBM 的树的数量
我使用提前停止和设置 ntrees=10000 在水中训练了 GBM。我想检索模型中实际存在的树木数量。但是，如果我调用 model.params['ntrees'] (其中 model 是网格搜索中
r - 插入符号和 GBM 错误
我正在尝试使用 caret在 R 中打包用于具有用户定义的性能指标的多个嵌套交叉验证过程。我遇到了各种各样的问题，所以我回过头来看看是否有更多开箱即用的 caret 的问题。看来我遇到了一个。如果我
r - h2o.gbm 中的树木数量
在传统的GBM中，我们可以使用 Predict.gbm(模型, newsdata=..., n.tree=...) 这样我就可以将测试数据的结果与不同数量的树进行比较。在h2o.gbm中，虽然有n.
python - 轻型 GBM 提前停止不适用于自定义指标
我对 light gbm 使用了自定义指标，但提前停止了对数损失的工作，这是目标函数，我如何解决这个问题或更改提前停止以适用于评估指标。 def evaluate_macroF1_lgb(truth,
r - R gbm 函数中的权重参数
R gbm 中的 weights 参数是什么？功能？它是否实现了成本敏感随机梯度提升？最佳答案您可能已经阅读过本文，但文档说 weights 参数是这样定义的: an optional vecto

首页

博学

6Ren·AI

商城

r - 为什么在这个最小的例子中 gbm() 给出的结果与 h2o.gbm() 不同？