gpt4 book ai didi

r - 当训练数据集中时,XGBoost 和随机森林会导致对测试集的持续预测

转载 作者:行者123 更新时间:2023-11-30 09:00:01 25 4
gpt4 key购买 nike

我正在进行组学数据分析,我有一个 269x600 的数据集,我将其分为训练集和测试集 (80-20)。我要预测的变量是马尿酸的浓度,有 4 个不同的值(0、75、150、300),但我正在对其进行回归。

我在中心训练集上使用caret基础设施运行了随机森林和XGBoost,我在其中进行了交叉验证以选择最佳超参数。 问题是,当我使用所选模型预测测试集时,我获得了(几乎)恒定的预测。也就是说,整个测试集的值约为 269。

但是,当我在非中心训练集上运行相同的模型时,预测非常好,甚至优于我之前的所有模型。

我的问题是:为什么仅以训练数据为中心会导致两个模型出现这种奇怪的结果?

我知道这些模型不需要这样的预处理才能工作,但我不明白为什么如果我们预处理它就不起作用,以及为什么当我们只集中数据时结果会发生如此大的变化......

最佳答案

想想你通过改变训练和测试来做什么。

您可能会确保测试集中的每个样本都超出训练数据的范围。

因此,与训练数据相比,测试数据中的每个特征实际上都是相同的(非常高或非常低),并且最终会出现在训练模型中的相同终端节点中。

因此它们都会产生相同的预测

这证明树模型不能很好地推断

require(xgboost)
X <- matrix(rnorm(10000, mean = 10),nrow = 100)
y <- sample(c(0,1) , 100, replace = T)

bst1 <- xgboost(data = X, label = y, nrounds = 20)

# gonna scale test and not train
# test predictions are the same
p <- predict( bst1, newdata = scale(X))
> p
[1] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[9] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[17] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[25] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[33] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[41] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[49] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[57] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[65] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[73] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[81] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[89] 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985 0.3643985
[97] 0.3643985 0.3643985 0.3643985 0.3643985

关于r - 当训练数据集中时,XGBoost 和随机森林会导致对测试集的持续预测,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44095921/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com