gpt4 book ai didi

random-forest - 在 H2O 随机森林和 xgboost 中使用权重列

转载 作者:行者123 更新时间:2023-12-02 03:01:41 24 4
gpt4 key购买 nike

我正在尝试最大限度地提高二元分类问题的精度(误报的成本很高)。数据集也确实不平衡。运行 DRF 或 XGBOOST 模型两次,第二次使用权重列以抵消误报是否有意义?

除了这种可能的方法之外,这些 H2O 算法中是否还有其他方法可以最大限度地提高精度(而不是对数损失)?我还将使用一个整体(这似乎确实提高了精度)。交叉验证似乎没有帮助。

最佳答案

首先,我会使用 balance_classes(将其设置为 true)。对于不平衡的数据,这会有所帮助。 (如果您需要进行精细控制,还可以查看 class_sampling_factorsmax_after_balance_size。)

我的直觉是,您建议使用一个模型的输出来为第二个模型加权是危险的。这听起来有点像堆叠集成的想法,但手工编码和自定义代码更容易出现错误。 (但是,如果您尝试这样做,看到代码和结果会很有趣。)

为了最大限度地提高精度,我会选择一个整体,并努力制作 3 或 4 个具有不同优势和劣势的模型。例如。一个 GBM、一个 GLM、一个具有所有默认值的深度学习模型,然后是一个使用 dropout(和更多隐藏节点,以进行补偿)的深度学习模型。

关于random-forest - 在 H2O 随机森林和 xgboost 中使用权重列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45486923/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com