gpt4 book ai didi

python-3.x - 如何使随机森林分类器更快?

转载 作者:行者123 更新时间:2023-11-30 09:35:38 26 4
gpt4 key购买 nike

我正在尝试实现 kaggle 中的词袋模型拥有 Twitter 情绪数据的网站,其中包含大约 100 万个原始数据。我已经清理了它,但在最后一部分,当我将特征向量和情感应用于随机森林分类器时,它花费了很多时间。这是我的代码...

from sklearn.ensemble import RandomForestClassifier
forest = RandomForestClassifier(n_estimators = 100,verbose=3)
forest = forest.fit( train_data_features, train["Sentiment"] )

train_data_features是1048575x5000稀疏矩阵。我尝试将其转换为数组,但这样做表明内存错误。

我在哪里做错了?有人可以建议我一些资源或其他方法来更快地完成它吗?我在机器学习方面绝对是新手,没有那么多的编程背景,所以一些指南可以容纳。

提前非常感谢您

最佳答案

实际上,解决方案非常简单:获取强大的机器并并行运行它。默认情况下,RandomForestClassifier 使用单线程,但由于它是完全独立模型的集合,因此您可以并行训练这 100 棵树中的每一个。只需设置

forest = RandomForestClassifier(n_estimators = 100,verbose=3,n_jobs=-1)

使用所有核心。您还可以限制最大深度,这将加快速度(最终您可能需要这两种方式,因为 RF 可能会严重过度拟合,而无需对深度进行任何限制)。

关于python-3.x - 如何使随机森林分类器更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43640546/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com