gpt4 book ai didi

r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错

转载 作者:行者123 更新时间:2023-12-04 02:39:41 24 4
gpt4 key购买 nike

在 64 位 Linux 机器上使用带有插入符号 6.0-41 和 randomForest 4.6-10 的 R 3.2.0。

尝试使用 predict()randomForest 上的方法用 train() 训练的对象来自 caret 的函数使用公式打包,函数返回错误。
通过 randomForest() 训练时和/或使用 x=y=而不是一个公式,它一切运行顺利。

这是一个工作示例:

library(randomForest)
library(caret)

data(imports85)
imp85 <- imports85[, c("stroke", "price", "fuelType", "numOfDoors")]
imp85 <- imp85[complete.cases(imp85), ]
imp85[] <- lapply(imp85, function(x) if (is.factor(x)) x[,drop=TRUE] else x) ## Drop empty levels for factors.

modRf1 <- randomForest(numOfDoors~., data=imp85)
caretRf <- train( numOfDoors~., data=imp85, method = "rf" )
modRf2 <- caretRf$finalModel
modRf3 <- randomForest(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"])
caretRf <- train(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"], method = "rf")
modRf4 <- caretRf$finalModel

p1 <- predict(modRf1, newdata=imp85)
p2 <- predict(modRf2, newdata=imp85)
p3 <- predict(modRf3, newdata=imp85)
p4 <- predict(modRf4, newdata=imp85)

最后4行中,只有第二行 p2 <- predict(modRf2, newdata=imp85)返回以下错误:
Error in predict.randomForest(modRf2, newdata = imp85) : 
variables in the training data missing in newdata

看来这个错误的原因是 predict.randomForest方法使用 rownames(object$importance)确定用于训练随机森林的变量名称 object .而在看的时候
rownames(modRf1$importance)
rownames(modRf2$importance)
rownames(modRf3$importance)
rownames(modRf4$importance)

我们看:
[1] "stroke"   "price"    "fuelType"
[1] "stroke" "price" "fuelTypegas"
[1] "stroke" "price" "fuelType"
[1] "stroke" "price" "fuelType"

所以不知何故,当使用 carettrain()带有公式的函数更改 importance 中(因子)变量的名称领域 randomForest目的。

真的是公式版和非公式版的插入符号不一致吗 train()功能?或者我错过了什么?

最佳答案

一、几乎从不 使用 $finalModel预测的对象。使用 predict.train .这是原因的一个很好的例子。

某些函数(包括 randomForesttrain )处理虚拟变量的方式存在一些不一致。 R 中使用公式方法的大多数函数会将因子预测变量转换为虚拟变量,因为它们的模型需要数据的数值表示。异常(exception)情况是基于树和基于规则的模型(可以根据分类预测变量进行拆分)、朴素贝叶斯和其他一些模型。

所以randomForest使用 randomForest(y ~ ., data = dat) 时不会创建虚拟变量但是 train (和大多数其他人)将使用类似 train(y ~ ., data = dat) 的电话.

发生错误的原因是 fuelType是一个因素。 train 创建的虚拟变量不要有相同的名字,所以predict.randomForest找不到他们。

使用非公式方法与 train将因子预测变量传递给 randomForest一切都会好起来的。

TL; 博士

使用非公式方法与 train如果您想要相同的级别 使用 predict.train
最大限度

关于r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30097730/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com