gpt4 book ai didi

random-forest - 构建决策树模型时处理分类特征

转载 作者:行者123 更新时间:2023-12-02 10:44:55 25 4
gpt4 key购买 nike

我使用 H2O 构建 GBM、DRF 和 DL 等分类模型。我拥有的数据集包含一些分类列,如果我想将它们用作构建模型的特征,我是否需要手动将它们转换为虚拟变量?我读到 GBM 可以在内部虚拟化分类变量?

最佳答案

是的,H2O 是少数不需要用户对分类变量进行预处理或单热编码(又名“虚拟编码”)的机器学习库之一。只要数据框中的列类型是“factor”(又名“enum”),H2O 就会自动知道要做什么。

特别是,H2O 允许在随机森林或 GBM 等基于树的方法中直接使用分类变量。基于树的算法能够本地使用分类数据,通常这会带来比 one-hot 编码更好的性能。在 GLM 或深度学习中,H2O 会在后台自动对分类进行一次性编码——无论哪种方式,您都不需要进行任何预处理。如果您想要更多控制,可以使用 categorical_encoding 控制自动编码的类型。争论。

关于random-forest - 构建决策树模型时处理分类特征,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44425647/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com