gpt4 book ai didi

python - 在 scikit-learn 中对多个随机森林模型进行平均

转载 作者:行者123 更新时间:2023-11-30 08:59:03 25 4
gpt4 key购买 nike

我有一个非常大的数据集,想在数据集的分区上训练几个随机森林模型,然后对这些模型进行平均以得到我的最终分类器。由于随机森林是一种集成方法,因此这是一种直观上合理的方法,但我不确定是否可以使用 scikit-learn 的随机森林分类器来实现。有任何想法吗?

我也愿意使用另一个包中的随机森林分类器,只是不确定在哪里寻找。

最佳答案

这是我能想到的:

  1. Pandas + Scikit:您可以自定义自己的引导算法,从整个数据集中随机读取合理大小的样本,并在其上拟合 scikit 树(如果您在每个节点上随机化特征,那就完美了)。然后对每棵树进行腌制,最后将它们平均以得出随机森林。

  2. Graphlab + SFrame Turi有自己的大数据库(SFrame,类似于Pandas)和机器学习库(graphlab,非常类似于scikit)。环境非常优美。

  3. Blaze-Dask对于某些人来说可能有一点陡峭的学习曲线,但这将是一个有效的解决方案。

  4. 您也可以使用内存映射 numpy 选项,但它会比前三个选项更麻烦,而且我从未这样做过,所以我将把这个选项留在这里。

总而言之,我会选择选项 2。

关于python - 在 scikit-learn 中对多个随机森林模型进行平均,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47946942/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com