r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错-6ren

r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错

转载作者：行者123 更新时间：2023-12-04 02:39:41

24

4

在 64 位 Linux 机器上使用带有插入符号 6.0-41 和 randomForest 4.6-10 的 R 3.2.0。

尝试使用 predict() 时randomForest 上的方法用 train() 训练的对象来自 caret 的函数使用公式打包，函数返回错误。
通过 randomForest() 训练时和/或使用 x=和 y=而不是一个公式，它一切运行顺利。

这是一个工作示例:

library(randomForest)
library(caret)

data(imports85)
imp85     <- imports85[, c("stroke", "price", "fuelType", "numOfDoors")]
imp85     <- imp85[complete.cases(imp85), ]
imp85[]   <- lapply(imp85, function(x) if (is.factor(x)) x[,drop=TRUE] else x) ## Drop empty levels for factors.

modRf1  <- randomForest(numOfDoors~., data=imp85)
caretRf <- train( numOfDoors~., data=imp85, method = "rf" )
modRf2  <- caretRf$finalModel
modRf3  <- randomForest(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"])
caretRf <- train(x=imp85[,c("stroke", "price", "fuelType")], y=imp85[, "numOfDoors"], method = "rf")
modRf4  <- caretRf$finalModel

p1      <- predict(modRf1, newdata=imp85)
p2      <- predict(modRf2, newdata=imp85)
p3      <- predict(modRf3, newdata=imp85)
p4      <- predict(modRf4, newdata=imp85)

最后4行中，只有第二行 p2 <- predict(modRf2, newdata=imp85)返回以下错误:

Error in predict.randomForest(modRf2, newdata = imp85) : 
variables in the training data missing in newdata

看来这个错误的原因是 predict.randomForest方法使用 rownames(object$importance)确定用于训练随机森林的变量名称 object .而在看的时候

rownames(modRf1$importance)
rownames(modRf2$importance)
rownames(modRf3$importance)
rownames(modRf4$importance)

我们看:

[1] "stroke"   "price"    "fuelType"
[1] "stroke"   "price"    "fuelTypegas"
[1] "stroke"   "price"    "fuelType"
[1] "stroke"   "price"    "fuelType"

所以不知何故，当使用 caret 时 train()带有公式的函数更改 importance 中(因子)变量的名称领域 randomForest目的。

真的是公式版和非公式版的插入符号不一致吗 train()功能？或者我错过了什么？

最佳答案

一、几乎从不 使用 $finalModel预测的对象。使用 predict.train .这是原因的一个很好的例子。

某些函数(包括 randomForest 和 train )处理虚拟变量的方式存在一些不一致。 R 中使用公式方法的大多数函数会将因子预测变量转换为虚拟变量，因为它们的模型需要数据的数值表示。异常(exception)情况是基于树和基于规则的模型(可以根据分类预测变量进行拆分)、朴素贝叶斯和其他一些模型。

所以randomForest使用 randomForest(y ~ ., data = dat) 时不会创建虚拟变量但是 train (和大多数其他人)将使用类似 train(y ~ ., data = dat) 的电话.

发生错误的原因是 fuelType是一个因素。 train 创建的虚拟变量不要有相同的名字，所以predict.randomForest找不到他们。

使用非公式方法与 train将因子预测变量传递给 randomForest一切都会好起来的。

TL; 博士

使用非公式方法与 train如果您想要相同的级别或使用 predict.train
最大限度

关于r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30097730/

24

4

0

文章推荐： maven - 使用来自 maven 的 JavaFX11 构建可执行 JAR

文章推荐： python - 在 numpy 中获取互补切片的最简洁方法

文章推荐： reactjs - React-leaflet:如何更新标记位置？

python - 什么时候应该使用 tf.train.BytesList、tf.train.FloatList 和 tf.train.Int64List 将数据存储在 tf.train.Feature 中？
TensorFlow 提供了 3 种不同的数据存储格式 tf.train.Feature .它们是: tf.train.BytesList tf.train.FloatList tf.train.In
trains - 使用 Trains 跟踪单独的训练/测试过程
在我的设置中，我运行了一个脚本火车一个模型并开始生成检查点。另一个脚本监视新的检查点和评估他们。脚本并行运行，因此评估只是训练之后的一步。支持这种情况的正确 Tracks 配置是什么？最佳答
trains - Trains 应该如何与 RayTune 等超参数优化工具一起使用？
什么是合理的设置？我可以在同一次执行中多次调用 Task.init() 吗？最佳答案免责声明:我是 allegro.ai Trains 团队的一员一种解决方案是从 trains.automati
trains - ClearML(以前称为 Trains)可以在本地服务器上工作吗？
我想开始我的方式 ClearML (以前称为火车)。我在documentation上看到的我需要在 ClearML 平台本身或使用 AWS 等的远程机器上运行服务器。我真的很想绕过这个限制并在我的
machine-learning - WEKA的多层感知器: training then training again
我正在尝试使用 weka 的 MultilayerPerceptron 执行以下操作: 使用一小部分训练实例来训练一部分历元输入，在剩余的周期中使用整组实例进行训练。但是，当我在代码中执行以下操作
c++ - 对象检测 : Training Requried or No Training Required?
这个问题与对象检测有关，基本上是检测任何“已知”对象。例如，假设我有以下对象。表格瓶子。相机汽车我将从所有这些单独的对象中拍摄 4 张照片。左边一个，右边一个，上下两个。我本来以为用这4张照
"RuntimeError: You must train on the training inputs! " When I'm trying to use mini batch in training Guassian Process Regression Model(“RuntimeError：你必须在训练输入上训练！which is the most important part of the Process Regression Model.“)
我已经编写了一段代码来训练Guassian过程回归模型来预测年龄。我已经编写了以下代码，并且运行良好：。但我注意到，每个纪元都输入了相同的数据，我认为这可能会导致过度拟合，所以我想使用Mini Bat
浅谈tf.train.Saver()与tf.train.import_meta_graph的要点
(一)、tf.train.Saver() (1). tf.train.Saver() 是用来保存tensorflow训练模型的，默认保存全部参数 (2). 用来加载参数，注：只加载存储在data
python - Pytorch model.train() 和教程中编写的单独的 train() 函数
我是 PyTorch 的新手，我想知道您是否可以向我解释 PyTorch 中的默认 model.train() 与此处的 train() 函数之间的一些关键区别。另一个 train() 函数位于关于
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以在maskrcnn的预训练模型的基础上训练吗？如果预训练模型的类别与我自己的数据集不同，预训练模型仍然有效吗？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
Training on a pre-trained model with new classes(使用新课程对预先训练好的模型进行培训)
我可以按照Maskrcnn预先训练的模式进行训练吗？如果预先训练的模型的类别与我自己的数据集的类别不同，那么预先训练的模型是否仍然有效？。我尝试了一个新的班级训练数据集。但它似乎收敛得非常慢。
tensorflow - tf.train.MonitoredTrainingSession 和 tf.train.Supervisor 有什么区别
我想知道这两个 tensorflow 对象在用于训练神经网络时有什么区别？最佳答案 Supervisor 即将被弃用，鼓励新用户使用 tf.train.FooSession 类 (来自 commen
python - tf.train.ExponentialMovingAverage 和 tf.train.MomentumOptimizer 有什么区别？
我已经看到文档 tf.train.ExponentialMovingAverage 实现了这个公式: shadow_variable = decay * shadow_variable + (1 -
python - tf.train.Checkpoint 和 tf.train.Saver 之间的区别
我发现在 Tensorflow 中有不同的方法来保存/恢复模型和变量。这些方式包括: tf.saved_model.simple_save tf.train.Checkpoint tf.train.S
python - tf.train.shuffle_batch_join 和 tf.train.shuffle_batch 之间的区别
查看两个带有参数的函数签名 tf.train.shuffle_batch_join( tensors_list, batch_size, capacity, min_after_dequeue, se
python - tf.train.shuffle_batch 和 `tf.train.batch 发生了什么？
我使用 Binary data训练 DNN。但是 tf.train.shuffle_batch 和 tf.train.batch 让我很困惑。这是我的代码，我将对其进行一些测试。首先Using_
machine-learning - SageMaker Estimator.fit() 未将 'train' 输入传递给 Training 实例
正如文档/教程中提到的，我们可以调用 Estimator.fit()开始训练工作。该方法所需的参数为 inputs这是对训练文件的 s3/file 引用。示例: estimator.fit({'tr
python - key 错误 : "Invalid split train[:80%]. Available splits are: [' train']"
这个问题在这里已经有了答案: Split train data to train and validation by using tensorflow_datasets.load (TF 2.1) (
multithreading - tf.train.Coordinator 类和 tf.train.QueueRunner 类在 tensorflow 中做什么？
我知道这两个类都处理线程。根据文档，tf.train.Coordinator 协调一组线程的终止，而 tf.train.QueueRunner 保存队列的入队操作列表，每个操作都在一个线程中运行。但
tensorflow - 对于可变长度特征，使用 tf.train.SequenceExample 相对于 tf.train.Example 有何优点？
最近我读了this TensorFlow 中未记录特征的指南，因为我需要传递可变长度序列作为输入。但是，我发现 tf.train.SequenceExample 的协议(protocol)相对困惑(特

首页

博学

6Ren·AI

商城

r - 在使用公式用插入符号的 train() 训练的 randomForest 对象上使用 predict() 时出错