- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试使用随机森林和逻辑回归来预测二元变量。我有严重不平衡的类(class)(Y=1 的大约 1.5%)。
随机森林中的默认特征重要性技术基于分类准确度(错误率)——这已被证明是不平衡类别的糟糕衡量标准(参见 here 和 here)。
The two standard VIMs for feature selection with RF are the Gini VIM and the permutation VIM. Roughly speaking the Gini VIM of a predictor of interest is the sum over the forest of the decreases of Gini impurity generated by this predictor whenever it was selected for splitting, scaled by the number of trees.
我的问题是:这种方法是否在 scikit-learn 中实现(就像在 R 包 party
中一样)?或者可能是解决方法?
PS:这个问题有点与an other有关。 .
最佳答案
scoring
只是一个用于测试样本的性能评估工具,它不会在每个 split 节点进入内部的DecisionTreeClassifier
算法。对于树算法,您只能将 criterion
(每个拆分节点处的一种内部损失函数)指定为 gini
或 information entropy
。
scoring
可用于交叉验证上下文,其目标是调整一些超参数(如 max_depth
)。在您的情况下,您可以使用 GridSearchCV
使用评分函数 roc_auc
调整您的一些超参数。
关于python - 使用随机森林的 AUC-base 特征重要性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31289011/
在 GGally::ggpair 的最新版本中,相关值用 * 显示,如下图所示。我想删除 *s 并保留相关值。 我看过 ggpairs 代码,但它对我来说并不明显。 GGally::ggpairs(d
在 GGally::ggpair 的最新版本中,相关值用 * 显示,如下图所示。我想删除 *s 并保留相关值。 我看过 ggpairs 代码,但它对我来说并不明显。 GGally::ggpairs(d
我正在尝试使用在 weka 库中实现的 SVM 分类来对一些数据进行分类。我的分类代码如下所示: BufferedReader reader = new BufferedReader(new File
我已经为 jdbm 构建了 Lucene Directory 实现,一个嵌入式Java数据库。 Directory API 的一部分是与"file"修改日期相关的两个方法:touchFile 和 fi
我的任务是编写一个函数,将文件中单词的长度与整数进行比较,然后返回所有符合该大小的单词。我得到的答案几乎相同,除了我没有像他们那样包含 string.strip() : def get_words(d
xgb.importance 命令返回由 f score 衡量的特征重要性图。 这个f分数代表什么,它是如何计算的? 输出: Graph of feature importance 最佳答案 这是一个
有一个二元分类问题:如何获得 Ranger 模型变量的 Shap 贡献? 示例数据: library(ranger) library(tidyverse) # Binary Dataset df %
如今 servlet 在哪里使用? 我知道 servlet 是在面向请求/响应的服务器(例如支持 Java 的 Web 服务器)中运行的模块。但是现在我没有听到任何人使用 servlet。这可能是因为
我是一名优秀的程序员,十分优秀!