r - xgboost 覆盖率是如何计算的？-6ren

r - xgboost 覆盖率是如何计算的？

转载作者：行者123 更新时间：2023-12-04 00:34:52

25

4

谁能解释一下Cover xgboost中的栏目R包在xgb.model.dt.tree中计算功能？

在文档中，它说 Cover “是衡量受拆分影响的观察数量的指标”。

当您运行以下代码时，在 xgboost 中给出此函数的文档，Cover树 0 的节点 0 是 1628.2500。

data(agaricus.train, package='xgboost')

#Both dataset are list with two items, a sparse matrix and labels
#(labels = outcome column which will be learned).
#Each column of the sparse Matrix is a feature in one hot encoding format.
train <- agaricus.train

bst <- xgboost(data = train$data, label = train$label, max.depth = 2,
               eta = 1, nthread = 2, nround = 2,objective = "binary:logistic")

#agaricus.test$data@Dimnames[[2]] represents the column names of the sparse matrix.
xgb.model.dt.tree(agaricus.train$data@Dimnames[[2]], model = bst)

训练数据集中有 6513 个观测值，所以谁能解释为什么 Cover树 0 的节点 0 是这个数字的四分之一 (1628.25)？

另外， Cover对于树 1 的节点 1 是 788.852 - 这个数字是如何计算的？

任何帮助将非常感激。谢谢。

最佳答案

封面在 xgboost 中定义作为:

the sum of second order gradient of training data classified to the leaf, if it is square loss, this simply corresponds to the number of instances in that branch. Deeper in the tree a node is, lower this metric will be

https://github.com/dmlc/xgboost/blob/f5659e17d5200bd7471a2e735177a81cb8d3012b/R-package/man/xgb.plot.tree.Rd
没有特别详细的记录......

为了计算封面，我们需要知道 树中该点的预测，以及关于损失函数的二阶导数 .

幸运的是，在您的示例中，0-0 节点中每个数据点(其中 6513 个)的预测值为 0.5。这是一个全局默认设置，您在 t=0 时的第一个预测是 0.5。

base_score [ default=0.5 ] the initial prediction score of all instances, global bias

http://xgboost.readthedocs.org/en/latest/parameter.html

二元逻辑(即您的目标函数)的梯度是 p-y，其中 p = 您的预测，y = 真实标签。

因此，粗麻 (我们为此需要)是 p*(1-p)。注意:Hessian 可以在没有 y(真实标签)的情况下确定。

所以(带回家):

6513 * (.5) * (1 - .5) = 1628.25

在第二棵树中，该点的预测不再都是 0.5，sp 让我们得到一棵树后的预测

p = predict(bst,newdata = train$data, ntree=1)

head(p)
[1] 0.8471184 0.1544077 0.1544077 0.8471184 0.1255700 0.1544077

sum(p*(1-p))  # sum of the hessians in that node,(root node has all data)
[1] 788.8521

请注意，对于线性(平方误差)回归，hessian 始终为 1，因此封面指示该叶子中有多少个示例。

最大的收获是cover是由目标函数的hessian定义的。在获得梯度和二元逻辑函数的粗麻布方面有很多信息。

这些幻灯片有助于了解他为什么使用粗麻布作为权重，并解释了 xgboost split 与标准树不同。 https://homes.cs.washington.edu/~tqchen/pdf/BoostedTree.pdf

关于r - xgboost 覆盖率是如何计算的？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33520460/

25

4

0

文章推荐： nhibernate - NHibernate中Session.Clear()的用途是什么？

文章推荐： git-merge - 如何将分支合并到github中的master中？

文章推荐： sitecore - 缺少所需的许可证 : Runtime Sitecore

没有单元测试的 JavaScript 覆盖率
在旧版 Web 应用程序中，我们没有对 javascript 部分进行任何单元测试。我们希望提高代码质量并删除死代码。有什么方法可以在人工测试期间在浏览器中进行逐行 Javascript 代码覆盖
单元测试的 Python 覆盖率
我已经为我的 python 代码编写了测试，并且想检查测试覆盖了多少百分比，所以我决定使用 python 覆盖。但是我启动它时遇到问题。我用这个 bash 命令启动我的测试: export PYTHO
Python 覆盖率 - 排除包
我正在使用 python 覆盖工具来运行我的单元测试。从结果中可以看出，它包括所有“站点包”。我怎样才能将它们排除在报告之外？我只想显示项目源代码的报告。 (ctrp) ubuntu@ubuntu-x
NUnit 测试的 OpenCover 覆盖率
我正在尝试使用 Opencover 来运行 NUnit 测试用例的代码覆盖率。我得到了预期的结果，但问题是在执行 opencover 时它再次运行测试。我们不希望发生这种情况，因为我们单独运行测试。下
NUnit 测试的 OpenCover 覆盖率
我正在尝试使用 Opencover 来运行 NUnit 测试用例的代码覆盖率。我得到了预期的结果，但问题是在执行 opencover 时它再次运行测试。我们不希望发生这种情况，因为我们单独运行测试。下
python - 毒性 0% 覆盖率
我有一个 python 项目，我使用: pipenv 毒性 pytest 还有更多。基本上，我想将 tox 添加到我的 gitlab 管道中。几乎一切似乎都有效，从 tox 调用 mypy、flak
覆盖率:构建捕获百分比为 0%，这是不合需要的
我使用Coverity来分析代码C。配置命令: cov-configure --compiler /opt/toolchains/stbgcc-4.5.4-2.9/bin/mipsel-linux-
python - 在运行时测量 python 覆盖率
是否可以在运行时测量 python 代码覆盖率并在生成结果时查看结果？我尝试使用 coverage但找不到有帮助的选项。我最初的实验表明，.coverage 文件直到程序执行结束才被保存，这意味着我们
python - pytest 覆盖率 - 一行的命中数
我有一个文件，test_basic.py: class TestCalculator(): def test_calculator(self): from basic impo
Cobertura 格式的 PHPUnit 覆盖率
我有一个小型 PHP 项目，它使用 PHPUnit 进行单元测试和覆盖。我想生成 cobertura XML 格式的覆盖率报告。我可以使用任何工具或插件来实现这一目标吗？感谢任何帮助.. 最佳答案
ruby - SimpleCov 0% 覆盖率
我正在研究一个小 gem 并包含 simplecov到 spec_helper.rb 两行: require 'simplecov' SimpleCov.start 当我运行 rspec 测试时，si
go - 以编程方式获取 golang 覆盖率
go -cover 或 -coverprofile 在运行 go 测试时非常有用，并且可以在 html 或纯文本中很好地显示。但是是否有 api 以编程方式访问它或处理文件？最佳答案你可以试试ax
PHPUnit 严格模式 - setUp() - 覆盖率
当我遇到代码覆盖问题时，我目前开始在 PHPUnit 中使用 strict 模式: 如果我使用setUp-方法创建我的类的新实例，__constructor-方法在我运行测试。这是我的测试设置: p
java - 枚举类型的 Emma 覆盖率
我正在运行 EclEmma，它是 Eclipse 的 Emma 插件，覆盖率报告仅显示我定义的 Enum 的部分覆盖率，即使它显示 Enum 中唯一的值被覆盖。我假设支持 Enum 的隐含方法存在覆盖
maven-3 - 单元测试代码的 Jacoco 覆盖率
我正在将 ANT 构建转换为 Maven。我不使用声纳。在 Maven 中，Jacoco 似乎没有报告有关单元测试本身的覆盖率，而 ANT 则报告了。我也一直在尝试为我的 Maven 构建获取这个，
java - switch 语句的 Jacoco 覆盖率
我正在努力为我正在处理的库实现 100% 的代码覆盖率，但我似乎对 switch 语句和覆盖率有一些问题，我根本不明白。我目前使用的是 Jacoco 0.7.2，因为每个新版本似乎都与 Robole
javascript - IntelliJ 的服务器端 JS 覆盖率
有没有在intelliJ中不用浏览器运行代码覆盖率的方法？ http://www.jetbrains.com/webstorm/webhelp/monitoring-code-coverage-for
python - Django 测试套件 URL 覆盖率
我想确保我的 Django 测试套件涵盖我的 URL 配置中列出的所有 URL。有没有办法将 URL 配置中的列表与测试套件中命中的 URL 列表进行比较？最佳答案我能够通过定义自定义测试套件运行
javascript - Jasmine + JSTestDriver + 覆盖率 + RequireJS
哇，好乱啊。这是场景。主干驱动的 JS 应用。用于 AMD 功能的 RequireJS，初始化如下: 然后在 main.js 中添加以下配置代码: require.config( { p
testing - Golang 测试覆盖率与黑盒 _test 覆盖率
我的问题很简单，但答案仍然难以捉摸。假设我有一个包裹 package mypackage func DoTheThing() int { return 5 } 现在假设我在 mypackage_t

首页

博学

6Ren·AI

商城

r - xgboost 覆盖率是如何计算的？