gpt4 book ai didi

apache-spark - Apache Spark 随机森林性能缓慢

转载 作者:行者123 更新时间:2023-11-30 08:38:02 24 4
gpt4 key购买 nike

如果能获得一些关于调整 Apache Spark 进行随机森林分类的​​技巧,那就太好了。
目前,我们有一个如下所示的模型:

  • 全部功能子集策略
  • 杂质基尼
  • 最大Bins 32
  • 最大深度 11
  • 类(class)数量 2
  • 树数 100

我们将 Spark 1.5.1 作为独立集群运行。

  • 1 个主节点和 2 个工作节点。
  • 每个 4 核节点的 RAM 量为 32GB。
  • 分类耗时 440 毫秒。

当我们将树的数量增加到 500 棵时,已经需要 8 秒了。我们尝试减少深度,但错误率更高。我们有大约 246 个属性。

可能我们做错了什么。我们有什么想法可以提高性能吗?

最佳答案

增加决策树的数量肯定会增加预测时间,因为问题实例必须遍历所有树。但减少它对预测准确性没有好处。您必须改变此参数(决策树的数量)并找到最佳值。这就是为什么它被称为超参数。超参数高度依赖于数据和属性的性质。您可能还需要一一改变其他超参数,并实现全局最优。

此外,当您说预测时间时,您是否还包括加载模型的时间!如果是这样,我想模型时间不应被视为预测时间。这只是加载模型和准备应用程序进行预测的开销。

关于apache-spark - Apache Spark 随机森林性能缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34357097/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com