gpt4 book ai didi

r - 设置随机森林回归模型的 ntree 和 mtry 值

转载 作者:行者123 更新时间:2023-11-30 08:20:16 24 4
gpt4 key购买 nike

我正在使用 R 包randomForest 对一些生物数据进行回归。我的训练数据大小是 38772 X 201

我只是想知道——树的数量ntree和每层变量的数量mtry的合适值是多少?有没有一个近似公式可以找到这些参数值?

我的输入数据中的每一行都是代表氨基酸序列的 200 个字符,我想构建一个回归模型以使用此类序列来预测蛋白质之间的距离。

最佳答案

mtry 的默认值非常合理,因此实际上没有必要对其进行修改。有一个函数tuneRF用于优化这个参数。但请注意,这可能会导致偏见。

Bootstrap 复制的数量没有优化。我经常从 ntree=501 开始,然后绘制随机森林对象。这将向您显示基于 OOB 误差的误差收敛。您需要足够的树来稳定误差,但又不能太多,以免过度关联整体,从而导致过度拟合。

这里需要注意的是:变量相互作用的稳定速度比误差慢,因此,如果您有大量自变量,则需要更多重复。我会将 ntree 保留为奇数,以便可以打破关系。

对于您问题的规模,我会开始ntree=1501。我还建议查看一种已发布的变量选择方法来减少自变量的数量。

关于r - 设置随机森林回归模型的 ntree 和 mtry 值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13956435/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com