random-forest - h2o随机森林中 "importance"的度量是什么-6ren

random-forest - h2o随机森林中 "importance"的度量是什么

转载作者：行者123 更新时间：2023-12-04 04:16:13

24

4

这是我的代码:

set.seed(1)

#Boruta on the HouseVotes84 data from mlbench
library(mlbench) #has HouseVotes84 data
library(h2o)     #has rf

#spin up h2o
myh20 <- h2o.init(nthreads = -1)

#read in data, throw some away
data(HouseVotes84)
hvo <- na.omit(HouseVotes84)

#move from R to h2o
mydata <- as.h2o(x=hvo,
                 destination_frame= "mydata")

#RF columns (input vs. output)
idxy <- 1
idxx <- 2:ncol(hvo)

#split data
splits <- h2o.splitFrame(mydata,           
                         c(0.8,0.1))     

train <- h2o.assign(splits[[1]], key="train")   
valid <- h2o.assign(splits[[2]], key="valid") 

# make random forest
my_imp.rf<- h2o.randomForest(y=idxy,x=idxx,
                      training_frame = train,
                      validation_frame = valid,
                      model_id = "my_imp.rf",
                      ntrees=200)

# find importance
my_varimp <- h2o.varimp(my_imp.rf)
my_varimp

我得到的输出是“可变重要性”。

经典的度量是“准确度平均降低”和“基尼系数平均降低”。

我的结果是:

> my_varimp
Variable Importances: 
   variable relative_importance scaled_importance percentage
1        V4         3255.193604          1.000000   0.410574
2        V5         1131.646484          0.347643   0.142733
3        V3          921.106567          0.282965   0.116178
4       V12          759.443176          0.233302   0.095788
5       V14          492.264954          0.151224   0.062089
6        V8          342.811554          0.105312   0.043238
7       V11          205.392654          0.063097   0.025906
8        V9          191.110046          0.058709   0.024105
9        V7          169.117676          0.051953   0.021331
10      V15          135.097076          0.041502   0.017040
11      V13          114.906586          0.035299   0.014493
12       V2           51.939777          0.015956   0.006551
13      V10           46.716656          0.014351   0.005892
14       V6           44.336708          0.013620   0.005592
15      V16           34.779987          0.010684   0.004387
16       V1           32.528778          0.009993   0.004103

因此，我对“投票＃4”(也称为V4)的相对重视程度是〜3255.2。

问题:
这是什么单位？
那是如何得出的？

我尝试查看文档，但找不到答案。我尝试了帮助文档。我尝试使用Flow查看参数以查看其中是否有任何指示。他们都找不到“基尼”或“降低准确性”。我应该去哪里看？

最佳答案

答案在docs中。

[在左 Pane 中，单击“算法”，然后单击“受监管”，然后单击“DRF”。常见问题解答部分回答了这个问题。 ]

为了方便起见，还将答案复制并粘贴到此处:

“如何为DRF计算变量重要性？变量重要性是通过计算每个变量的相对影响来确定的:在树的构建过程中，是否在拆分过程中选择了该变量，并且平方误差(在所有树上)因此提高了多少。 ”

关于random-forest - h2o随机森林中 "importance"的度量是什么，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36021137/

24

4

0

文章推荐： react-native - React Native - 动态更改 tabnavigator 中的背景颜色

文章推荐： react-native - react native navigationOptions调用函数错误

文章推荐： Perl 类的属性组成？

ssas - 如何根据当前行和切片器上下文编写 DAX 度量？
背景信息:对于国际销售表中的每一行，我需要检索过去特定日期的美元汇率，以便分析人员确定汇率变化的影响关于销售数字。然后，我将使用今天的汇率与过去的汇率之间的差值，并将其乘以销售额来确定影响。实际问题
powerbi - 根据切片器值选择 DAX 度量
是否可以通过切片器值动态选取表中定义的适当 DAX 度量？源表: +----------------+------------+ | col1 | col2 | +-
未显示子项的 Android ViewFlipper 度量
我有一个 ViewFlipper在我的主要 Activity View 上。在 onCreate 我实例化添加到 ViewFlipper 的 View 。之后，我将显示的 child 设置为第一个。当
python - 如何计算多标签分类中的 F1 度量？
我正在研究句子类别检测问题。每个句子可以属于多个类别例如: "It has great sushi and even better service." True Label: [[ 0. 0.
cluster-analysis - 计算聚类的 F 度量
谁能帮我一起计算F-measure？我知道如何计算召回率和准确率，但不知道对于给定的算法如何计算一个 F-measure 值。例如，假设我的算法创建了 m 个集群，但我知道相同数据有 n 个集群(由
machine-learning - 为什么不能从宏精度和召回率计算宏 F1 度量？
我对通过宏精度和手动召回计算宏 f1-score 感兴趣。但结果并不相等。代码中 f1 和 f1_new 的最终公式有什么区别？ from sklearn.metrics import precisi
select - 基于最后一列值和筛选器的 Power BI 度量
我有一张记录了一些人体重的表格: Year Person Weight 2010 Mike 75 2010 Laura 60 2011 Mike 80 201
train() 中的 ROC 度量，插入符包
df分为训练数据帧和测试数据帧。训练数据帧分为训练数据帧和测试数据帧。因变量Y是二进制(因子)，值为 0 和 1。我试图用此代码(神经网络，插入符号包)预测概率: library(caret) mod
python - 如何在 Keras 中使用 Hausdorff 度量？
我想使用 Hausdorff 距离作为训练指标，但我刚刚找到了 Weighted_Hausdorff_loss并将其用作医学图像分割的指标。 import math import numpy as n
r - R 中的精度、召回率和 f 度量
我有一段时间没有使用 R，所以也许我只是不习惯它，但是..我在 R 中有一个表，有两个列，第一个有预测值(值可以是 0 或 1 )，第二个具有实际值(也是 0 或 1)。我需要找到召回率、精度和 f
metrics - 使用 Statsd 聚合 Collectd 度量
我正在使用 Collectd 收集系统指标。我正在小范围内收集测量值以获得准确的值。但是我想使用 Statsd 在本地聚合这些值。 Statsd 应该聚合这些值并以更长的时间间隔将它们发送到 libr
machine-learning - 在多类分类中，如何计算每个类的 F1 度量？
我使用SciKit作为一个库来处理分类算法，例如:NB、SVM。这是一个非常漂亮的binary classification implementation对于“垃圾邮件和HAM”电子邮件:
algorithm - 度量 TSP 的 MST 启发式的严格示例
我正在寻找 MST 启发式算法的严格示例，它是度量旅行商问题的 2 近似算法。这个算法在网上很容易找到，但我找不到具体的例子。我所说的严格示例是指给定算法返回的解决方案比最佳解决方案差 2 倍的示例
looker-studio - Data Studio 案例函数度量/维度错误
我使用 Data Studio 中的 Case 函数来确定某个值是否高于或低于 6,000 英镑，并根据输出呈现两个数字之一。这两个数字是计算字段。第一个案例陈述: (大于或小于)- CASE WH
rrdtool - Ganglia/RRD 工具中的 load_one 度量 Y 轴是什么意思？
我正在使用 Ganglia + RRDTool为 monitoring a web farm .很多图很清楚，但是当我看到load_one metric , 我 don't have Y-axis l
list - Power BI - 用于引用值列表的 DAX 度量。计算每个经纪人的净营业额 - 更优雅的解决方案？
以下是股票交易数据的简化版本。 StockData = DATATABLE ( "STOCK", STRING, "Date", DATETIME, "Buyer", STRI
ASP.NET Core 7: using OpenTelemetry to send traces/metrics to Grafana(ASP.NET Core 7：使用开放遥测向Grafana发送跟踪/度量)
我正在尝试将ASP.NET Core 7应用程序中的度量/跟踪发送到Grafana。。这是我的《码头工人》作文文件。。下面是我的收集器配置：。下面是配置OpenTelemeter的服务集合扩展方法。。
ASP.NET Core 7: using OpenTelemetry to send traces/metrics to Grafana(ASP.NET Core 7：使用开放遥测向Grafana发送跟踪/度量)
我正试图从我的ASP.NET Core 7应用程序向Grafana发送度量/跟踪。。这是我的《码头工人》作文文件。。下面是我的收集器配置：。下面是配置OpenTelemeter的服务集合扩展方法。。首

首页

博学

6Ren·AI

商城

random-forest - h2o随机森林中 "importance"的度量是什么