gpt4 book ai didi

python - 使用随机森林的 AUC-base 特征重要性

转载 作者:太空狗 更新时间:2023-10-29 22:29:56 25 4
gpt4 key购买 nike

我正在尝试使用随机森林和逻辑回归来预测二元变量。我有严重不平衡的类(class)(Y=1 的大约 1.5%)。

随机森林中的默认特征重要性技术基于分类准确度(错误率)——这已被证明是不平衡类别的糟糕衡量标准(参见 herehere)。

The two standard VIMs for feature selection with RF are the Gini VIM and the permutation VIM. Roughly speaking the Gini VIM of a predictor of interest is the sum over the forest of the decreases of Gini impurity generated by this predictor whenever it was selected for splitting, scaled by the number of trees.

我的问题是:这种方法是否在 scikit-learn 中实现(就像在 R 包 party 中一样)?或者可能是解决方法?

PS:这个问题有点与an other有关。 .

最佳答案

scoring只是一个用于测试样本的性能评估工具,它不会在每个 split 节点进入内部的DecisionTreeClassifier算法。对于树算法,您只能将 criterion(每个拆分节点处的一种内部损失函数)指定为 giniinformation entropy

scoring 可用于交叉验证上下文,其目标是调整一些超参数(如 max_depth)。在您的情况下,您可以使用 GridSearchCV 使用评分函数 roc_auc 调整您的一些超参数。

关于python - 使用随机森林的 AUC-base 特征重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31289011/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com