gpt4 book ai didi

machine-learning - 用于决策树的one-hot encode后如何解释特征重要性

转载 作者:行者123 更新时间:2023-12-03 15:14:38 28 4
gpt4 key购买 nike

我知道决策树具有由 Gini 计算的 feature_importance 属性,它可用于检查哪些特征更重要。

但是,对于在 scikit-learn 或 Spark 中的应用,它只接受数字属性,因此我必须将字符串属性转换为数字属性,然后对其进行单热编码器。当特征被放入决策树模型时,它是0-1编码而不是原始格式,我的问题是,如何解释原始属性的特征重要性?在尝试解释特征重要性时,我应该避免单热编码器吗?

谢谢。

最佳答案

从概念上讲,您可能希望使用具有排列重要性的东西。基本思想是,您获取原始数据集,并一次随机打乱每列 1 的值。然后,您使用模型对扰动数据进行评分,并将性能与原始性能进行比较。如果一次完成 1 列,您可以通过销毁每个变量,将其索引到损失最大的变量(将变为 1 或 100%)来评估您所受到的性能影响。如果您可以在 1 热编码之前对原始数据集执行此操作,那么您将获得一个将它们整体分组在一起的重要性度量。

关于machine-learning - 用于决策树的one-hot encode后如何解释特征重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40047343/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com