gpt4 book ai didi

用于分类的 R randomForest

转载 作者:行者123 更新时间:2023-12-04 10:04:47 25 4
gpt4 key购买 nike

我正在尝试使用 randomForest 进行分类,但我反复收到一条错误消息,似乎没有明显的解决方案(randomForest 在过去对我进行回归时效果很好)。我在下面粘贴了我的代码。 “成功”是一个因素,所有因变量都是数字。有关如何正确运行此分类的任何建议?

> rf_model<-randomForest(success~.,data=data.train,xtest=data.test[,2:9],ytest=data.test[,1],importance=TRUE,proximity=TRUE)

Error in randomForest.default(m, y, ...) :
NA/NaN/Inf in foreign function call (arg 1)

此外,这里是数据集的示例:

head(data)


success duration  goal reward_count updates_count comments_count backers_count     min_reward_level max_reward_level
True 20.00000 1500 10 14 2 68 1 1000
True 30.00000 3000 10 4 3 48 5 1000
True 24.40323 14000 23 6 10 540 5 1250
True 31.95833 30000 9 17 7 173 1 10000
True 28.13211 4000 10 23 97 2936 10 550
True 30.00000 6000 16 16 130 2043 25 500

最佳答案

除了关于 NA 等存在的明显事实之外,这个错误几乎总是由数据集中字符特征类型的存在引起的。理解这一点的方法是考虑随机森林的真正作用。您正在按功能对数据集功能进行分区。因此,如果特征之一是字符向量,您将如何对数据集进行分区?您需要类别来分区数据。有多少“男性”与“女性” - 类别...

对于年龄或价格等数字特征,您可以通过分桶创建类别;大于某个年龄,小于某个价格等等。你不能用纯粹的性格特征来做到这一点。因此,您需要将它们作为数据集中的因素。

关于用于分类的 R randomForest,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14143450/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com