gpt4 book ai didi

大数据集上的随机森林

转载 作者:行者123 更新时间:2023-11-30 08:26:13 24 4
gpt4 key购买 nike

我有一个 R 大型数据集(1M+ 行 x 6 列),我想用它来训练随机森林(使用 randomForest 包)以实现回归目的。不幸的是,当我尝试一次完成整个操作时,出现 Error in matrix(0, n, n) : Too much elements specified 错误,并且 无法分配足够的内存 类型在数据子集上运行时出现错误 - 观察值低至 10,000 个左右。

鉴于我不可能在我的机器上添加更多 RAM,并且随机森林非常适合我尝试建模的流程类型,我真的很想让这项工作成功。

非常感谢任何建议或解决方法的想法。

最佳答案

您可能会要求 randomForest 为数据创建邻近矩阵,如果您考虑一下,它会疯狂大:100 万 x 100 万。无论您将 sampsize 设置得有多小,都需要这个大小的矩阵。事实上,简单地谷歌搜索错误消息似乎就证实了这一点,因为包作者 states整个源代码中唯一出现 n,n) 的地方是计算邻近矩阵。

但是鉴于您没有提供有关您正在使用的实际代码的详细信息,因此很难提供更多帮助。

关于大数据集上的随机森林,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10037239/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com