gpt4 book ai didi

scikit-learn - RandomForestClassifier 中的 feature_importances 是如何确定的?

转载 作者:行者123 更新时间:2023-12-03 04:38:06 29 4
gpt4 key购买 nike

我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点。除了绝对分类结果之外,我还想知道哪些属性/日期对结果的贡献有多大。因此,我只使用 feature_importances_,它对我来说效果很好。

但是,我想知道它们是如何计算的以及使用哪种度量/算法。不幸的是我找不到关于这个主题的任何文档。

最佳答案

确实有多种方法可以获取功能的“重要性”。通常,对于这个词的含义并没有严格的共识。

在 scikit-learn 中,我们实现了[1]中描述的重要性(经常被引用,但不幸的是很少阅读......)。它有时被称为“基尼重要性”或“平均减少不纯度”,定义为节点不纯度的总减少(按到达该节点的概率(通过到达该节点的样本比例近似)加权)在所有节点上平均合奏树。

在文献或其他一些软件包中,您还可以找到作为“平均降低精度”实现的特征重要性。基本上,这个想法是当您随机排列该特征的值时测量 OOB 数据的准确性下降。如果下降幅度较小,则该特征并不重要,反之亦然。

(请注意,这两种算法都可以在 randomForest R 包中使用。)

[1]:Breiman、Friedman,“分类和回归树”,1984 年。

关于scikit-learn - RandomForestClassifier 中的 feature_importances 是如何确定的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15810339/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com