gpt4 book ai didi

r - 在 R 的 randomForest 包中,因子是否必须明确标记为因子?

转载 作者:行者123 更新时间:2023-12-01 13:49:15 25 4
gpt4 key购买 nike

还是包裹会意识到它们不是连续的并将它们视为因素?我知道,对于分类,被分类的特征确实需要是一个因素。但是预测功能呢?我已经在几个玩具数据集上运行了它,根据分类特征是数字还是因子,我得到的结果略有不同,但算法是随机的,所以我不知道我的结果的差异是否有意义。

谢谢!

最佳答案

是的,两者之间是有区别的。如果你想使用一个因子变量,你应该这样指定它,而不是把它作为一个数字。

对于分类数据(this 实际上是 CrossValidated 上的一个很好的答案):

A split on a factor with N levels is actually a selection of one of the (2^N)−2 possible combinations. So, the algorithm will check all the possible combinations and choose the one that produces the better split



对于数值数据(如 here 所示):

Numerical predictors are sorted then for every value Gini impurity or entropy is calculated and a threshold is chosen which gives the best split.



所以是的,将它添加为因子还是数字变量会有所不同。差异有多大取决于实际数据。

关于r - 在 R 的 randomForest 包中,因子是否必须明确标记为因子?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33219001/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com