gpt4 book ai didi

python - 机器学习sklearn中的海量数据集

转载 作者:行者123 更新时间:2023-11-30 08:49:37 26 4
gpt4 key购买 nike

我有一个每天都在增长的数据集,我担心它很快就会达到内存可能无法容纳的大小。我在我的应用程序中使用随机森林分类器和回归器。我听说过部分拟合,但我不知道随机森林是否可以以这种方式完成。即使数据集增长超出内存大小,如何确保应用程序不会中断并继续良好运行。如果使用 svm 而不是随机森林,情况也会有所不同。

最佳答案

一般来说,您应该寻找提供增量在线培训的方法。在这种情况下,您不必立即向算法提供完整的数据集,而是在新数据可用时向算法提供。如果数据每天都在增长并且您的计算资源有限,那么这一点至关重要。 Stochastic gradient descent是一种非常流行的优化方法,可以满足您的要求。

您可以使用名为 Mondarian Forest 的随机森林变体。引用链接论文的摘要:蒙德里安森林实现了与现有在线随机森林和定期重新训练的批量随机森林相当的竞争性预测性能,同时速度快了一个数量级以上,从而代表了更好的计算能力准确性权衡。。代码可以在GitHub上找到.

如果不了解您的数据和问题的性质,就不可能为您提供比随机森林性能更好的具体指导。如果您想坚持使用 scikit learn,请查看文章 Strategies to scale computationally: bigger data .

关于python - 机器学习sklearn中的海量数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41327813/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com