gpt4 book ai didi

r - 如何知道随机森林生成的回归模型好不好? (MSE 和 %Var(y))

转载 作者:行者123 更新时间:2023-12-02 17:49:15 26 4
gpt4 key购买 nike

我尝试使用随机森林进行回归。原始数据是218行9列的数据框。前 8 列是分类值(可以是 A、B、C 或 D),最后一列 V9 的数值范围可以从 10.2 到 999.87。

当我在训练集(代表原始数据的 2/3 并且是随机选择的)上使用随机森林时,我得到了以下结果。

>r=randomForest(V9~.,data=trainingData,mytree=4,ntree=1000,importance=TRUE,do.trace=100)
| Out-of-bag |
Tree | MSE %Var(y) |
100 | 6.927e+04 98.98 |
200 | 6.874e+04 98.22 |
300 | 6.822e+04 97.48 |
400 | 6.812e+04 97.34 |
500 | 6.839e+04 97.73 |
600 | 6.852e+04 97.92 |
700 | 6.826e+04 97.54 |
800 | 6.815e+04 97.39 |
900 | 6.803e+04 97.21 |
1000 | 6.796e+04 97.11 |

我不知道方差百分比高是否意味着模型好。另外,由于 MSE 很高,我怀疑回归模型并不是很好。您知道如何阅读上面的结果吗?他们的意思是模型不好吗?

最佳答案

就像 @Joran 所说,%Var 是随机森林模型解释的 Y 总方差量。调整后,将模型应用到您的验证数据(剩余 1/3):

RFestimated = predict(r, data=ValidationData)

检查残差也很有趣:

qqnorm((RFestimated - ValidationData$V9)/sd(RFestimated-ValidationData$V9))

qqline((RFestimated-ValidationData$V9)/sd(RFestimated-ValidationData$V9))

估计值与观测值:

plot(ValidationData$V9, RFestimated)

和 RMSE:

RMSE <- (sum((RFestimated-ValidationData$V9)^2)/length(Validation$v9))^(1/2)

希望对您有所帮助!

关于r - 如何知道随机森林生成的回归模型好不好? (MSE 和 %Var(y)),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16548882/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com