- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点。除了绝对分类结果之外,我还想知道哪些属性/日期对结果的贡献有多大。因此,我只使用 feature_importances_
,它对我来说效果很好。
但是,我想知道它们是如何计算的以及使用哪种度量/算法。不幸的是我找不到关于这个主题的任何文档。
最佳答案
确实有多种方法可以获取功能的“重要性”。通常,对于这个词的含义并没有严格的共识。
在 scikit-learn 中,我们实现了[1]中描述的重要性(经常被引用,但不幸的是很少阅读......)。它有时被称为“基尼重要性”或“平均减少不纯度”,定义为节点不纯度的总减少(按到达该节点的概率(通过到达该节点的样本比例近似)加权)在所有节点上平均合奏树。
在文献或其他一些软件包中,您还可以找到作为“平均降低精度”实现的特征重要性。基本上,这个想法是当您随机排列该特征的值时测量 OOB 数据的准确性下降。如果下降幅度较小,则该特征并不重要,反之亦然。
(请注意,这两种算法都可以在 randomForest R 包中使用。)
[1]:Breiman、Friedman,“分类和回归树”,1984 年。
关于scikit-learn - RandomForestClassifier 中的 feature_importances 是如何确定的?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15810339/
我正在使用 Python 的 sklearn 随机森林 (ensemble.RandomForestClassifier) 进行分类,并使用 feature_importances_ 为分类器寻找重要
在 scikit learn 中使用 DecisionTreeClassifier 时,可以轻松获得决策树和重要特征。但是,如果我和装袋功能(例如 BaggingClassifier),我将无法获得它
我有一个以时间序列作为数据输入的分类任务,其中每个属性 (n=23) 代表一个特定的时间点。除了绝对分类结果之外,我还想知道哪些属性/日期对结果的贡献有多大。因此,我只使用 feature_impor
我正在运行 SciKit Learn 的决策树算法,我想获取 Feature_importance 向量以及特征名称,以便我可以确定哪些特征在标记过程中占主导地位。你可以帮帮我吗?谢谢。 最佳答案 假
1.环境信息 操作系统:WindowsPython版本:Python 2.7.13 2.错误信息: ValueError:无法解码 JSON 对象 lgb_train = lgb.Dataset(X_
我正在使用 eli5 explain_weights scikit-learn 的随机森林分类器上的函数。我在eli5见过documentation (第 30-31 页)该函数能够返回每个类别的特征
我正在尝试在 KNeighborsClassifier 上应用 RFECV 来消除无关紧要的特征。为了使问题可重复,以下是虹膜数据的示例: from sklearn.datasets import l
我是一名优秀的程序员,十分优秀!