- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 R 中的 gbm 包为以下模型拟合 BRT 模型:
离地高度 ~ 年龄 + 季节 + 栖息地 + 时间
地面以上的高度是一个连续变量,时间也是如此。季节和栖息地是二项式变量。
我得到了非常高的偏差,我不知道为什么......
有人可以帮我设置参数吗?
> M1 <- gbm.step(data=data, gbm.x = 2:5, gbm.y = 1,
+ family = "gaussian", tree.complexity = 4,
+ learning.rate = 0.01, bag.fraction = 0.50,
+ tolerance.method = "fixed",
+ tolerance = 0.01)
GBM STEP - version 2.9
Performing cross-validation optimisation of a boosted regression tree model
for HAG and using a family of gaussian
Using 15439 observations and 4 predictors
creating 10 initial models of 50 trees
folds are unstratified
total mean deviance = 55368.22
tolerance is fixed at 0.01
ntrees resid. dev.
50 51050.65
now adding trees...
100 48935.65
150 47805.14
200 47193.43
250 46841.71
300 46631.33
350 46498.56
400 46418.58
450 46371.7
500 46336.54
550 46317.53
600 46309.25
650 46300.57
700 46296.82
750 46297
800 46299.11
850 46297.7
900 46298.34
950 46292.32
1000 46297.62
1050 46295.78
1100 46301.32
1150 46306.59
1200 46312.55
1250 46314.67
1300 46318.64
1350 46321.38
1400 46324.33
1450 46322.9
fitting final gbm model with a fixed number of 950 trees for HAG
mean total deviance = 55368.21
mean residual deviance = 45913.34
estimated cv deviance = 46292.32 ; se = 1366.501
training data correlation = 0.413
cv correlation = 0.406 ; se = 0.008
elapsed time - 0.02 minutes
最佳答案
gbm 中的偏差是均方误差,它将取决于您的因变量所在的比例。
例如:
library(dismo)
library(mlbench)
data(BostonHousing)
idx=sample(nrow(BostonHousing),400)
TrnData = BostonHousing[idx,]
TestData = BostonHousing[-idx,]
gbm_0 = gbm.step(data=TrnData,gbm.x=1:13,gbm.y=14,family="gaussian")
mean total deviance = 84.02
mean residual deviance = 7.871
estimated cv deviance = 13.959 ; se = 1.909
training data correlation = 0.952
cv correlation = 0.916 ; se = 0.012
mean(gbm_0$residuals^2)
[1] 7.871158
pred = predict(gbm_0,TestData,1000)
# or pearson if you like
cor(pred,TestData$medv,method="spearman")
[1] 0.8652737
# MAE
mean(abs(TestData$medv-pred))
[1] 2.75325
TrnData$medv = TrnData$medv*2
TestData$medv = TestData$medv*2
gbm_2 = gbm.step(data=TrnData,gbm.x=1:13,gbm.y=14,family="gaussian")
mean total deviance = 336.081
mean residual deviance = 30.983
estimated cv deviance = 57.52 ; se = 10.254
training data correlation = 0.953
cv correlation = 0.911 ; se = 0.019
elapsed time - 0.2 minutes
pred = predict(gbm_2,TestData,1000)
cor(pred,TestData$medv,method="spearman")
[1] 0.8676821
mean(abs(TestData$medv-pred))
[1] 5.47673
关于r - 提升回归树 - 偏差值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60488587/
[在此处输入图像描述][1]我正在努力弄清楚回归是否是我需要走的路线,以便解决我当前使用 Python 的挑战。这是我的场景: 我有一个 195 行 x 25 列的 Pandas Dataframe
我想训练回归模型(不是分类),其输出是连续数字。 假设我有输入变量 X,其范围在 -70 到 70 之间。我有输出变量 Y,其范围在 -5 到 5 之间。X 有 39 个特征,Y 有 16 个特征,每
我想使用神经网络逼近 sinc 函数。这是我的代码: import tensorflow as tf from keras.layers import Dense from keras.models
我对 postgres 表做了一些更改,我想将其恢复到以前的状态。没有数据库的备份。有办法吗?比如,postgres 会自动拍摄快照并将其存储在某个地方,还是原始数据会永远丢失? 最佳答案 默认情况下
我有大约 100 个 7x7 因变量矩阵(所以有 49 个因变量)。我的自变量是时间。我正在做一个物理项目,我应该通过求解 ODE 得到一个矩阵函数(矩阵的每个元素都是时间的函数)。我使用了 nump
我之前曾被告知——出于完全合理的原因——当结果变量为二元变量时(即是/否、真/假、赢/输等),不应运行 OLS 回归。但是,我经常阅读经济学/其他社会科学方面的论文,其中研究人员对二元变量运行 OLS
您好,我正在使用生命线包进行 Cox 回归。我想检查非二元分类变量的影响。有内置的方法吗?或者我应该将每个类别因子转换为一个数字?或者,在生命线中使用 kmf fitter,是否可以对每个因素执行此操
作为后续 this question ,我拟合了具有定量和定性解释变量之间相互作用的多元 Logistic 回归。 MWE如下: Type |z|) (Intercept) -0.65518
我想在单个动物园对象中的多对数据系列上使用 lm 执行滚动回归。 虽然我能够通过以下代码对动物园对象中的一对数据系列执行滚动回归: FunLm seat time(seat) seat fm
是否有一种简单的方法可以在 R 中拟合多元回归,其中因变量根据 Skellam distribution 分布? (两个泊松分布计数之间的差异)?比如: myskellam <- glm(A ~ B
包含各种特征和回归目标(称为 qval)的数据集用于训练 XGBoost 回归器。该值 qval 介于 0 和 1 之间,应具有以下分布: 到目前为止,还不错。但是,当我使用 xgb.save_mod
这有效: felm(y ~ x1 + x2 | fe1 + fe2 | 0 | , data = data) 我想要: fixedeffects = "fe1 + fe2" felm(y ~ x1
这有效: felm(y ~ x1 + x2 | fe1 + fe2 | 0 | , data = data) 我想要: fixedeffects = "fe1 + fe2" felm(y ~ x1
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
我刚刚开始使用 R 进行统计分析,而且我还在学习。我在 R 中创建循环时遇到问题。我有以下案例,我想知道是否有人可以帮助我。对我来说,这似乎是不可能的,但对你们中的一些人来说,这只是小菜一碟。我有不同
是否可以在 sklearn 中使用或不使用(即仅使用截距)预测器来运行回归(例如逻辑回归)?这似乎是一个相当标准的类型分析,也许这些信息已经在输出中可用。 我发现的唯一相关的东西是sklearn.sv
假设我对一些倾斜的数据分布执行 DNN 回归任务。现在我使用平均绝对误差作为损失函数。 机器学习中的所有典型方法都是最小化平均损失,但对于倾斜来说这是不恰当的。从实际角度来看,最好尽量减少中值损失。我
我正在对公寓特征进行线性回归分析,然后预测公寓的价格。目前,我已经收集了我所在城市 13000 套公寓的特征。我有 23-25 个特征,我不确定在公寓价格预测中拥有如此多的特征是否正常。 我有以下功能
我是 ML 新手,对 catboost 有疑问。所以,我想预测函数值(例如 cos | sin 等)。我回顾了一切,但我的预测始终是直线 是否可能,如果可能,我该如何解决我的问题 我很高兴收到任何评论
我目前已经为二进制类实现了概率(至少我这么认为)。现在我想扩展这种回归方法,并尝试将其用于波士顿数据集。不幸的是,我的算法似乎被卡住了,我当前运行的代码如下所示: from sklearn impor
我是一名优秀的程序员,十分优秀!