gpt4 book ai didi

r - 无法处理超过 32 个类别的分类预测变量

转载 作者:行者123 更新时间:2023-12-01 23:25:22 25 4
gpt4 key购买 nike

我正在尝试使用一组 1664(列)x 208(行)的数据运行随机森林。我的因变量是保留时间(秒),我的自变量是 1664 个不同的描述符,所有不同的化合物。所有描述符都给出一个值并且不是分类变量。我正在尝试执行随机森林进行回归。但是,当我尝试使用以下代码运行它时:-

urine.rf <- randomForest(RT..seconds.~., data=urine, importance=TRUE)

我收到消息:-

randomForest.default(m, y, ...) 中的错误: 无法处理超过 32 个类别的分类预测变量。

我在网上读到,您可以通过构建某种形式的 model.matrix 来解决这个问题。我对 R 完全陌生,对如何做到这一点一无所知。我尝试格式化 csv 文件中的单元格,以便所有单元格都是数字,但由于某种原因,它仍然被视为分类预测变量。我该如何解决这个问题?

RT (seconds)    1_MW    2_AMW   3_Sv    4_Se    5_Sp    6_Ss    
46.58353 155.18 7.76 11.8 20.61 12.21 32.67 0.59
46.79514 145.29 5.01 14.76 28.37 16.11 21 0.51
48.18893 169.21 7.36 13.4 23.49 13.97 34.17 0.58
49.94328 169.21 7.36 13.4 23.49 13.97 34.17 0.58
50.81087 187.33 5.51 17.87 33.59 19.32 30.17 0.53
51.3834 104.2 4.96 10.39 20.67 11.41 16.5 0.49
51.51799 125.17 8.94 7.41 14.81 8.3 27.92 0.53
52.67208 117.13 7.81 8.2 15.73 8.45 29.33 0.55
52.79043 137.18 7.22 11.59 19.12 12.13 26.33 0.61
52.79046 161.23 6.2 13.71 26.27 14.7 33.5 0.53

这就是我正在使用的数据库的样子。我希望 RT 成为我的 Y 变量,其他所有内容(1_MW 以及之后的所有其他变量)成为我的自变量(有 1664)

谢谢

最佳答案

所以,只是为了完成这个。我遇到了完全相同的问题,我花了 10 分钟才发现有隐藏的评论。因此:

解决方案可能是将空值解释为字符

尝试使用 na.strings 选项:

read.csv("filename.csv", na.strings=c("", "NA", "NULL"))

关于r - 无法处理超过 32 个类别的分类预测变量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19801908/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com