r - 提升回归树 - 偏差值-6ren

r - 提升回归树 - 偏差值

转载作者：行者123 更新时间：2023-12-04 10:29:11

25

4

我正在使用 R 中的 gbm 包为以下模型拟合 BRT 模型:

离地高度 ~ 年龄 + 季节 + 栖息地 + 时间

地面以上的高度是一个连续变量，时间也是如此。季节和栖息地是二项式变量。

我得到了非常高的偏差，我不知道为什么......
有人可以帮我设置参数吗？

> M1 <- gbm.step(data=data, gbm.x = 2:5, gbm.y = 1,
+                family = "gaussian", tree.complexity = 4,
+                learning.rate = 0.01, bag.fraction = 0.50,
+                tolerance.method = "fixed",
+                tolerance = 0.01)


 GBM STEP - version 2.9 

Performing cross-validation optimisation of a boosted regression tree model 
for HAG and using a family of gaussian 
Using 15439 observations and 4 predictors 
creating 10 initial models of 50 trees 

 folds are unstratified 
total mean deviance =  55368.22 
tolerance is fixed at  0.01 
ntrees resid. dev. 
50    51050.65 
now adding trees... 
100   48935.65 
150   47805.14 
200   47193.43 
250   46841.71 
300   46631.33 
350   46498.56 
400   46418.58 
450   46371.7 
500   46336.54 
550   46317.53 
600   46309.25 
650   46300.57 
700   46296.82 
750   46297 
800   46299.11 
850   46297.7 
900   46298.34 
950   46292.32 
1000   46297.62 
1050   46295.78 
1100   46301.32 
1150   46306.59 
1200   46312.55 
1250   46314.67 
1300   46318.64 
1350   46321.38 
1400   46324.33 
1450   46322.9 
fitting final gbm model with a fixed number of 950 trees for HAG

mean total deviance = 55368.21 
mean residual deviance = 45913.34 

estimated cv deviance = 46292.32 ; se = 1366.501 

training data correlation = 0.413 
cv correlation =  0.406 ; se = 0.008 

elapsed time -  0.02 minutes

最佳答案

gbm 中的偏差是均方误差，它将取决于您的因变量所在的比例。

例如:

library(dismo)
library(mlbench)
data(BostonHousing)
idx=sample(nrow(BostonHousing),400)
TrnData = BostonHousing[idx,]
TestData = BostonHousing[-idx,]

因变量是最后一列 "medv"，因此我们对原始数据运行 gbm:

gbm_0 = gbm.step(data=TrnData,gbm.x=1:13,gbm.y=14,family="gaussian")

mean total deviance = 84.02 
mean residual deviance = 7.871 

estimated cv deviance = 13.959 ; se = 1.909 

training data correlation = 0.952 
cv correlation =  0.916 ; se = 0.012

您可以看到平均偏差也可以从您的残差(即 y - y 预测)中计算出来:

mean(gbm_0$residuals^2)
[1] 7.871158

使用 testData(模型尚未经过训练)总是好的。您还可以使用相关性或 MAE(平均绝对误差)检查它与实际数据的接近程度:

pred = predict(gbm_0,TestData,1000)    
# or pearson if you like
cor(pred,TestData$medv,method="spearman")
[1] 0.8652737
# MAE
mean(abs(TestData$medv-pred))
[1] 2.75325

可视化它，良好的相关性是有意义的，您的预测平均偏离 3。

现在，如果您更改因变量的比例，则您对相关性或 MAE 的解释所导致的偏差将保持不变:

TrnData$medv = TrnData$medv*2
TestData$medv = TestData$medv*2
gbm_2 = gbm.step(data=TrnData,gbm.x=1:13,gbm.y=14,family="gaussian")

mean total deviance = 336.081 
mean residual deviance = 30.983 

estimated cv deviance = 57.52 ; se = 10.254 

training data correlation = 0.953 
cv correlation =  0.911 ; se = 0.019 

elapsed time -  0.2 minutes

pred = predict(gbm_2,TestData,1000)    
cor(pred,TestData$medv,method="spearman")
[1] 0.8676821
mean(abs(TestData$medv-pred))
[1] 5.47673

关于r - 提升回归树 - 偏差值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60488587/

25

4

0

文章推荐： Python 类成员与实例成员不同

文章推荐： ReactJS - 如何根据服务器响应处理给用户的通知？

Python Pandas 回归
[在此处输入图像描述][1]我正在努力弄清楚回归是否是我需要走的路线，以便解决我当前使用 Python 的挑战。这是我的场景: 我有一个 195 行 x 25 列的 Pandas Dataframe
python - 如何在机器学习中训练连续输出(回归)
我想训练回归模型(不是分类)，其输出是连续数字。假设我有输入变量 X，其范围在 -70 到 70 之间。我有输出变量 Y，其范围在 -5 到 5 之间。X 有 39 个特征，Y 有 16 个特征，每
python - 回归:如何逼近多维函数？
我想使用神经网络逼近 sinc 函数。这是我的代码: import tensorflow as tf from keras.layers import Dense from keras.models
database - Postgres 回归
我对 postgres 表做了一些更改，我想将其恢复到以前的状态。没有数据库的备份。有办法吗？比如，postgres 会自动拍摄快照并将其存储在某个地方，还是原始数据会永远丢失？最佳答案默认情况下
带矩阵的 Python 回归
我有大约 100 个 7x7 因变量矩阵(所以有 49 个因变量)。我的自变量是时间。我正在做一个物理项目，我应该通过求解 ODE 得到一个矩阵函数(矩阵的每个元素都是时间的函数)。我使用了 nump
regression - 对二元结果变量使用 OLS 回归
我之前曾被告知——出于完全合理的原因——当结果变量为二元变量时(即是/否、真/假、赢/输等)，不应运行 OLS 回归。但是，我经常阅读经济学/其他社会科学方面的论文，其中研究人员对二元变量运行 OLS
python - 使用生命线和分类变量的 Cox 回归
您好，我正在使用生命线包进行 Cox 回归。我想检查非二元分类变量的影响。有内置的方法吗？或者我应该将每个类别因子转换为一个数字？或者，在生命线中使用 kmf fitter，是否可以对每个因素执行此操
r - 具有定量和定性解释变量之间相互作用的多元 Logistic 回归
作为后续 this question ，我拟合了具有定量和定性解释变量之间相互作用的多元 Logistic 回归。 MWE如下: Type |z|) (Intercept) -0.65518
R:在动物园矩阵对象上滚动应用 lm 回归
我想在单个动物园对象中的多对数据系列上使用 lm 执行滚动回归。虽然我能够通过以下代码对动物园对象中的一对数据系列执行滚动回归: FunLm seat time(seat) seat fm
r - 如何拟合 Skellam 回归？
是否有一种简单的方法可以在 R 中拟合多元回归，其中因变量根据 Skellam distribution 分布？ (两个泊松分布计数之间的差异)？比如: myskellam <- glm(A ~ B
python - XGBoost 回归 - 预测值超出训练范围
包含各种特征和回归目标(称为 qval)的数据集用于训练 XGBoost 回归器。该值 qval 介于 0 和 1 之间，应具有以下分布: 到目前为止，还不错。但是，当我使用 xgb.save_mod
r - 如何将字符串作为变量传递给 felm 回归
这有效: felm(y ~ x1 + x2 | fe1 + fe2 | 0 | , data = data) 我想要: fixedeffects = "fe1 + fe2" felm(y ~ x1
r - 如何将字符串作为变量传递给 felm 回归
这有效: felm(y ~ x1 + x2 | fe1 + fe2 | 0 | , data = data) 我想要: fixedeffects = "fe1 + fe2" felm(y ~ x1
r - R中的惩罚 Gamma 回归
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
r - R 中的循环 - 回归
我刚刚开始使用 R 进行统计分析，而且我还在学习。我在 R 中创建循环时遇到问题。我有以下案例，我想知道是否有人可以帮助我。对我来说，这似乎是不可能的，但对你们中的一些人来说，这只是小菜一碟。我有不同
python - 没有预测器的 Sklearn 回归
是否可以在 sklearn 中使用或不使用(即仅使用截距)预测器来运行回归(例如逻辑回归)？这似乎是一个相当标准的类型分析，也许这些信息已经在输出中可用。我发现的唯一相关的东西是sklearn.sv
machine-learning - 回归。优化偏态分布的中位数而不是均值
假设我对一些倾斜的数据分布执行 DNN 回归任务。现在我使用平均绝对误差作为损失函数。机器学习中的所有典型方法都是最小化平均损失，但对于倾斜来说这是不恰当的。从实际角度来看，最好尽量减少中值损失。我
machine-learning - 机器学习中的大量特征不好(回归)？
我正在对公寓特征进行线性回归分析，然后预测公寓的价格。目前，我已经收集了我所在城市 13000 套公寓的特征。我有 23-25 个特征，我不确定在公寓价格预测中拥有如此多的特征是否正常。我有以下功能
python - Catboost 回归。函数外推
我是 ML 新手，对 catboost 有疑问。所以，我想预测函数值(例如 cos | sin 等)。我回顾了一切，但我的预测始终是直线是否可能，如果可能，我该如何解决我的问题我很高兴收到任何评论
python - 概率 SVM、回归
我目前已经为二进制类实现了概率(至少我这么认为)。现在我想扩展这种回归方法，并尝试将其用于波士顿数据集。不幸的是，我的算法似乎被卡住了，我当前运行的代码如下所示: from sklearn impor

首页

博学

6Ren·AI

商城

r - 提升回归树 - 偏差值