r - 如何重现H2o GBM类概率计算-6ren

r - 如何重现H2o GBM类概率计算

转载作者：行者123 更新时间：2023-12-01 04:40:04

25

4

我一直在使用h2o.gbm解决分类问题，并想进一步了解它如何计算类概率。首先，我尝试重新计算只有一棵树的gbm的类概率（通过查看叶子中的观察结果），但是结果非常令人困惑。

让我们假设我的正类变量是“ buy”，而负类变量是“ not_buy”，我有一个训练集“ dt.train”和一个单独的测试集“ dt.test”。

在正常决策树中，通过将叶子中所有类别为“ buy”的观察值除以总数，计算出新数据行（测试数据）的“购买” P（has_bought =“ buy”）的类别概率。叶中的观测值（基于用于生长树的训练数据）。

但是，即使我模拟“正常”决策树（将n.trees设置为1，并将alle sample.rates设置为1），h2o.gbm似乎也做了不同的事情。我认为，最好的方式来说明这种困惑是通过逐步告诉我所做的事情。

步骤1：训练模型

我不在乎过拟合或模型性能。我想让自己的生活尽可能轻松，因此我将n.trees设置为1，并通过设置所有sample.rate参数来确保所有训练数据（行和列）用于每棵树并进行拆分。到1.下面是训练模型的代码。

    base.gbm.model <- h2o.gbm(
      x = predictors,
      y = "has_bought",
      training_frame = dt.train,
      model_id = "2",
      nfolds = 0,
      ntrees = 1,
      learn_rate = 0.001,
      max_depth = 15,
      sample_rate = 1,
      col_sample_rate = 1,
      col_sample_rate_per_tree = 1,
      seed = 123456,
      keep_cross_validation_predictions = TRUE,
      stopping_rounds = 10,
      stopping_tolerance = 0,
      stopping_metric = "AUC",
      score_tree_interval = 0
    )

步骤2：获取训练集的叶子分配

我想做的是使用与训练模型相同的数据，并了解它们最终位于哪个叶子中。H2o为此提供了一个功能，如下所示。

    train.leafs <- h2o.predict_leaf_node_assignment(base.gbm.model, dt.train)

这将返回训练数据中每一行的叶节点分配（例如“ LLRRLL”）。因为只有一棵树，所以此列称为“ T1.C1”，我将其重命名为“ leaf_node”，并将其与训练数据的目标变量“ has_bought”绑定在一起。这导致下面的输出（从这里开始称为“ train.leafs”）。

步骤3：对测试集进行预测

对于测试集，我想预测两件事：

模型本身的预测P（has_bought =“ buy”）
根据模型分配叶节点。

test.leafs <- h2o.predict_leaf_node_assignment(base.gbm.model, dt.test)
test.pred <- h2o.predict(base.gbm.model, dt.test)

找到这个之后，我使用cbind将这两个预测与测试集的目标变量结合在一起。

    test.total <- h2o.cbind(dt.test[, c("has_bought")], test.pred, test.leafs)

结果是下表，从此处称为“ test.total”

不幸的是，我没有足够的代表点来发表两个以上的链接。但是如果您点击“表格“ test.total”并结合使用手册
步骤5中的“概率计算”，它基本上是同一张表
没有“ manual_prob_buy”列。

步骤4：手动预测概率

从理论上讲，我现在应该可以自己预测概率了。我通过编写一个循环来做到这一点，该循环遍历“ test.total”中的每一行。对于每一行，我进行叶子节点分配。

然后，我使用该叶节点分配来过滤表“ train.leafs”，并检查有多少个观测值具有正类（has_bought == 1）（posN），以及叶内总共有多少个观测值（totalN）与测试行相关联。

我执行（标准）计算posN / totalN，并将其作为新列存储在测试行中，称为“ manual_prob_buy”，这应该是该叶子的P（has_bought =“ buy”）概率。因此，落在该叶子中的每个测试行都应具有该概率。
该for循环如下所示。

    for(i in 1:nrow(dt.test)){
      leaf <-  test.total[i, leaf_node] 
      totalN <- nrow(train.leafs[train.leafs$leaf_node == leaf])
      posN <- nrow(train.leafs[train.leafs$leaf_node == leaf & train.leafs$has_bought == "buy",])
      test.total[i, manual_prob_buy :=  posN / totalN]
    }

步骤5：比较概率

这就是我感到困惑的地方。以下是更新后的“ test.total”表，其中“ buy”代表根据模型的概率P（has_bought =“ buy”），而“ manual_prob_buy”代表从步骤4开始手动计算的概率。，这些概率应该是相同的，因为我只使用了1棵树，并且将sample.rates设置为1。

表“ test.total”结合手动概率计算

问题

我只是不明白为什么这两个概率不一样。据我所知，我以一种类似于“正常”分类树的方式设置参数。

那么问题来了：有人知道我为什么会发现这些概率之间的差异吗？

我希望有人可以指出我可能做出错误假设的地方。我只是真的希望我做些愚蠢的事情，因为这使我发疯。

谢谢！

最佳答案

我建议您不要将R的h2o.predict（）的结果与您自己的手写代码进行比较，而应将其与应该匹配的H2O MOJO进行比较。

在这里查看示例：

http://docs.h2o.ai/h2o/latest-stable/h2o-genmodel/javadoc/overview-summary.html#quickstartmojo

您可以自己运行该简单示例，然后根据您自己的模型和新的数据行对其进行修改以进行预测。

完成此操作后，您可以查看代码并在Java环境中对其进行调试/单步调试，以准确了解预测的计算方式。

您可以在github上找到MOJO预测代码：

https://github.com/h2oai/h2o-3/blob/master/h2o-genmodel/src/main/java/hex/genmodel/easy/EasyPredictModelWrapper.java

关于r - 如何重现H2o GBM类概率计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44735518/

25

4

0

文章推荐： php - 如何删除 jQuery.filer 中的现有图像

文章推荐： php - 如何使用 jQuery 上传图片？

文章推荐： python - XML 文件解析 - 从子级的子级获取数据

文章推荐： grails - 有没有办法做 gsp partials 而不是标签库？

scalacheck - 重现 ScalaCheck 测试运行
这是在 https://stackoverflow.com/questions/12639454/make-scalacheck-tests-deterministic 中作为“奖金问题”提出的，但没
javascript - Leaflet，重现/调用拖动事件
我的项目使用 Angular 6 和 Leaflet 1.2。我想重现当用户在 Leaflet map 上保持右键或左键单击时的拖动效果。例如，我希望在不断按下空格键时能够开始拖动 map 。我已
c# - 重现 SqlMembershipProvider 密码哈希
我们正在将我们的用户身份验证从提供的 .NET 实现迁移到我们自己的系统。我们希望能够支持存在于 aspNet_Membership 表中的旧密码。 Password 和 Salt 位于该表中，因此
c++ - 重现/调试一些多线程 hell
我有一个二进制文件，它在 99% 的时间里都运行良好。有时，我无法理解，它会因这个输出而崩溃。在我重新启动之后，一切正常。二进制是一个模板系统。它读取了一些带有占位符的模板，例如{%foo%} 或
c - 重现 strcpy 的行为
我试图在 c 中重现 strcpy 的行为，我的问题是该函数有效但它在末尾附加了额外的东西。 char *ft_strcpy(char * dst, const char * src) { in
c# - 重现 UserPreferenceChanged 事件以验证卡住问题已修复
我最近遇到了可怕的 UserPreferenceChanged 事件 UI 卡住问题，随后我解决了可能的原因，例如: 调用单个控件而不是主应用程序表单(参见 https://stackoverflow
scala - 我可以为 == 重现 Scala 的行为吗？
在 Scala 编程中，我可以读到 ==运算符的行为就像是这样定义的: final def == (that: Any): Boolean = if (null eq this) {null eq t
django - 复制/重现 Django 开发环境
我正在和我的 friend 一起开发 Django 项目。该项目依赖于一些 python 模块。我在 virtualenv 中安装了 django 和其他依赖项。 django 项目的代码位于一个存储
apache-spark - 重现 pyspark 示例的更方便的方法
关于spark的大多数问题都使用show作为代码示例，没有生成数据帧的代码，如下所示: df.show() +-------+--------+----------+ |USER_ID|locatio
java - 使用 -Xss 重现 OutOfMemoryError
我正在尝试重现 java.lang.OutOfMemoryError: unable to create new native thread但是使用 -Xss VM 参数。我猜想如果我们有大量线程，并
swift - 复制/重现 UIAlertView 模糊效果
我正在尝试在自定义 alertView 中插入表格 View 。我需要实现与默认警报相同的样式。从 Debug View Hierarchy 我几乎复制了样式，但我无法弄清楚 Apple 如何设置模糊
c++ - 重现 C++ 11 随机生成器的相同结果
标准是否保证如果 std::mt19937 被相同的数字播种，它会在所有平台上产生相同的数字序列？换句话说，它的实现是否由标准明确定义，或者像 std::rand() 一样被视为实现细节？最佳答案
javascript - 重现 github 404 效果
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的
javascript - 重现 BingPreview JavaScript 错误
我有一个网站可以从 BingPreview/1.0b* 获得访问，这很可能是 Bing 的机器人。我收到一个错误，它似乎无法找到我非常确定应该存在的 DOM 元素。我没有从任何其他浏览器(在所有主要
ios - 重现 iOS 11 笔记中的新扫描功能
有谁知道如何重现 new Notes new scanning feature在 iOS 11 中？？ AVFoundation 是否用于相机？摄像头如何检测纸张/文档/卡片的形状？他们如何实时放
iphone - 重现 iPhone SMS 应用程序用户界面的最简单方法？
您好! 作为使用 Objective-C 开发 iPhone 应用程序的初学者，我想知道重新创建 iPhone SMS 应用程序 UI(带有消息气泡等的用户界面)的最简单方法是什么我考虑过将 UIT
python - 如何实现可选的第一个参数(重现 slice() 行为)
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: How can the built-in range function take a single argu
javascript - 重现 Chartjs v2 中的错误极坐标图未绘制所有提供的数据
虽然这很可能是我自己犯的错误，但有人可以帮助我。我有一个包含 6 个数据点的极坐标图，在绘制时仅显示 5 个数据点。如果这是一个问题，我会在 GitHub 上打开 1，但我在想，如果它归结于我糟糕的代
r - 使用 d3_sankey 重现 Sankey 图示例时出现问题
我正在尝试使用 rCharts 重现简单的示例绘图库 sankey图表。我发现this example from scratch并尝试重现它，但是，我遇到了一些问题。首先，我尝试在没有任何内容的情况
arrays - Haskell - 重现 numpy 的 reshape
进入 Haskell，我试图重现 numpy's reshape 之类的东西与列表。具体来说，给定一个平面列表，将其 reshape 为一个 n 维列表: import numpy as np a =

首页

博学

6Ren·AI

商城

r - 如何重现H2o GBM类概率计算