r - 从决策树中提取使用过的列名/特征-6ren

r - 从决策树中提取使用过的列名/特征

转载作者：行者123 更新时间：2023-12-04 15:12:18

27

4

有人可以请你这么好心，并指出一种提取拟合树中使用的列/特征的方法，使用如下代码:

library(dplyr)
library(caret)
library(rpart)

df <- data.frame(
    x1 = rnorm(100, 3, 1)
    , x2 = rnorm(100, 5, 2)
    , y = rnorm(100, 3, 1)
)

ivs <- df %>%
    dplyr::select(
        x1
        , x2
    )

fitted <- caret::train(
     x = ivs
     , y = df$y        
)

model <-fitted$finalModel
model

这个:

model$terms

为您提供所有术语(在 x 中)- 因此不一定是曾经使用过的术语。

附言:

沿着这些路线的东西可能是前进的方向:

model$frame %>%
    select(
        var
    ) %>%
    filter(
        var != "<leaf>"
    )

最佳答案

随机森林模型是决策树的集合，您可以使用函数varUsed 获取树使用的变量。如果您使用插入符号，则需要设置 keep.forest=TRUE :

library(caret)
set.seed(111)

X = matrix(runif(2000),ncol=20)
colnames(X) = paste0("col",1:20)
y = rnorm(100)

fitted <- train(x = X,y = y,trControl = trainControl(method="cv"),
keep.forest=TRUE,tuneGrid = data.frame(mtry=3:5))

然后我们查看使用的变量，下表告诉您每个变量(行)在每棵树(列)中使用了多少次:

model <-fitted$finalModel
varUsed(model,by.tree=TRUE)

dim(varUsed(model,by.tree=TRUE))
[1]  20 500

head(varUsed(model,by.tree=TRUE))
     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] [,11] [,12] [,13] [,14]
[1,]    1    3    1    4    1    2    2    2    2     2     1     0     3     2
[2,]    2    4    2    2    3    3    1    4    1     3     1     4     0     4
[3,]    3    1    5    1    1    0    2    2    0     1     2     1     2     1
[4,]    4    0    2    3    1    0    2    1    4     2     1     2     1     1
[5,]    0    0    1    0    1    4    3    2    2     2     3     4     0     0
[6,]    1    2    1    3    2    2    2    1    1     1     1     1     2     3

您可以使用以下方法详细检查:

head(getTree(model,1,labelVar=TRUE))
  left daughter right daughter split var split point status  prediction
1             2              3     col13   0.9651637     -3  0.04972823
2             4              5     col13   0.5825061     -3 -0.05466984
3             0              0      <NA>   0.0000000     -1  2.55528193
4             6              7      col6   0.8524606     -3 -0.30132135
5             8              9     col16   0.8011010     -3  0.51518018
6            10             11      col3   0.3629737     -3 -0.45289996

如果我们制表 split var 列，我们会得到与上表相同的结果。

关于r - 从决策树中提取使用过的列名/特征，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/64987451/

27

4

0

文章推荐： json - BigQuery 加载 JSON 错误 "Could not convert value to string"

文章推荐： php - 如何动态过滤掉MySQL中的某些行以对其进行查询？

文章推荐： c# - ActionFilter 返回带有消息的 Http 状态代码

MySQL 列名
这个问题已经有答案了: When to use single quotes, double quotes, and backticks in MySQL (13 个答案) 已关闭 3 年前。我正在尝
SQL - 子查询(列名)
我需要一个返回某些列值的选择查询。我想要的列以“U_S”开头。 Select * from em 我需要转换上面的查询。 '*' 必须是以下结果(但带有逗号): select COLUMN_NAME
JPA OneToMany 列名
在JPA中设置一对多关系时如何设置外键的列名？我想将“items_id”的名称更改为“item_id” @OneToMany private List items; 我尝试了以下注释但没有成功: @
javascript - jqGrid搜索的任意索引(列名)
我有一个jqGrid列定义如下 name : 'idmycolumn', index : 'idmycolumn', width : 80,
查询的 MySql 列名
我是否可以编写一个带参数的存储过程，即 mysql 查询，存储过程返回查询的列名？例如我调用程序: 调用选择器('select * from users') 过程返回列名。使用 informatio
mysql concat 列名
嗨，我刚刚开始学习 sql，我希望使用 concat 将列合并为一个列，但没能做到。我可以在没有 concat 的情况下运行代码，但是当我使用 concat 时，它会给我一个错误代码。谁能告诉我我做错
postgresql - 列名 ... 在此结果集中找不到
我们正在使用 java jdk 1.7.0_45，postgresql jdbc 连接器 postgresql-9.3-1100.jdbc41.jar。这是我们问题的概要，下面粘贴了尽可能多的代码。
python - 返回新数据框中的第一个匹配值/列名
import pandas as pd import numpy as np rng = pd.date_range('1/1/2011', periods=6, freq='H') df = pd.
php - 使用PDO时如何获取原始表/列名？
借助 PHP 的 mysqli 扩展，我可以使用 fetch_field() 方法通过 orgname 和获取列和表的原始(无别名)名称结果中的 orgtable。 PDO 提供了方法getColu
php - 安全转义表名/列名
我在 php 中使用 PDO，因此无法使用准备好的语句转义表名或列名。以下是我自己实现它的万无一失的方法吗: $tn = str_replace('`', '', $_REQUEST['tn']);
R:行名、列名、暗号和名称适用
我想使用 apply 来跨越矩阵的行，并且我想在我的函数中使用当前行的行名。好像不能用rownames , colnames , dimnames或 names直接在函数内部。我知道我可以根据 thi
sql - 处理动态(用户提供的)列名
在编写管理数据的应用程序时，允许最终用户创建或删除最好表示为列的数据类别通常很有用。例如，我正在开发字典构建应用程序；用户可能会决定他们想要向数据添加“备用拼写”字段或其他内容，这可以很容易地表示为另
r - 如何从系列字符(列名)中删除最后两个元素？
在我的数据框中，许多列名称以“.y”结尾，如示例所示: dat <- data.frame(x1=sample(c(0:1)), id=sample(10), av1.y = sample(10) ,
sql - 数据库中所有列的逗号分隔列表(表名 | 列名...)
在 SQL Server 中，我希望看到 Table_Name 以及数据库中与该 Table_Name 关联的所有列。所以输出应该是这样的: TABLE_NAME COLUMN_N
r - 如何从系列字符(列名)中删除最后两个元素？
在我的数据框中，许多列名称以“.y”结尾，如示例所示: dat <- data.frame(x1=sample(c(0:1)), id=sample(10), av1.y = sample(10) ,
oracle - 验证 Oracle 列名
在一种情况下，我们动态创建 sql 到 create动态临时表。 table_name 没有问题，因为它是由我们决定的，但是列名是由我们无法控制的来源提供的。通常我们会使用以下查询检查列名: sel
python - Pandas GroupBy 列名
我有一个数据框，我们可以通过代理 df = pd.DataFrame({'a':[1,0,0], 'b':[0,1,0], 'c':[1,0,0], 'd':[2,3,4]}) 还有一个类别系列 ca
r - 编写用户函数以返回每个变量的列位置、列名、模式和类
我需要编写一个用户定义的函数，当应用于数据框时，它将返回列位置、列名称、模式和每个变量的类。我能够创建一个返回模式和类的，但是当我包含位置/名称时，我总是收到错误。我一直在这样做， myFunctio
hibernate - QueryDsl orderBy 列名
我刚开始使用 QueryDSL 并遇到了问题。是否可以使用列名进行 orderBy？我为 orderBy 动态路径生成找到了这个: Generic querydsl orderBy dynamic p
.net - 如何安全访问 DataGridView 列名？
操作 DataGridView 单元格时，您通常会执行以下操作: MyGrid.CurrentRow.Cells["EmployeeFirstName"].Value = "John"; 这一切都很好

首页

博学

6Ren·AI

商城

r - 从决策树中提取使用过的列名/特征