R:rpart 树使用两个解释变量生长，但在删除不太重要的变量后不再生长-6ren

R:rpart 树使用两个解释变量生长，但在删除不太重要的变量后不再生长

转载作者：行者123 更新时间：2023-12-02 02:42:21

数据:我正在使用 "attrition" dataset来自 rsample 包。

问题:使用 attrition 数据集和 rpart 库，我可以使用公式“Attrition ~ OverTime + JobRole”来生长一棵树，其中选择 OverTime 作为第一个分割。但是，当我尝试在没有 JobRole 变量(即“Attrition ~ OverTime”)的情况下生长树时，树不会 split 并仅返回根节点。使用 rpart 函数以及插入符的 train 函数(method = "rpart")会发生这种情况。

我对此感到困惑，因为我认为 rpart 中实现的 CART 算法选择了以迭代贪婪方式分割的最佳变量，并且没有“向前看”以查看其他变量的存在如何影响其选择的最佳分割。如果算法在有两个解释变量的情况下选择 OverTime 作为值得的第一次分割，为什么在删除 JobRole 变量后不选择 OverTime 作为值得的第一次分割？

我在 Windows 7 中使用 R 版本 3.4.2 和 RStudio 版本 1.1.442。

研究:我发现了类似的 Stack Overflow 问题 here和 here ，但都没有完整的答案。

据我所知，rpart docs似乎在第 5 页上说 rpart 算法不使用“前瞻”规则:

One way around both of these problems is to use look-ahead rules; but these are computationally very expensive. Instead rpart uses one of several measures of impurity, or diversity, of a node.

此外，类似的描述here和 here .

代码:这是一个表示。任何见解都会很棒 - 谢谢!

suppressPackageStartupMessages(library(rsample))                                                                                                           
#> Warning: package 'rsample' was built under R version 3.4.4
suppressPackageStartupMessages(library(rpart))                                                                                                             
suppressPackageStartupMessages(library(caret))                                                                                                             
suppressPackageStartupMessages(library(dplyr))                                                                                                             
#> Warning: package 'dplyr' was built under R version 3.4.3
suppressPackageStartupMessages(library(purrr))                                                                                                             

#################################################                                                                                                          

# look at data                                                                                                                                             
data(attrition)                                                                                                                                            
attrition_subset <- attrition %>% select(Attrition, OverTime, JobRole)                                                                                     
attrition_subset %>% glimpse()                                                                                                                             
#> Observations: 1,470
#> Variables: 3
#> $ Attrition <fctr> Yes, No, Yes, No, No, No, No, No, No, No, No, No, N...
#> $ OverTime  <fctr> Yes, No, Yes, Yes, No, No, Yes, No, No, No, No, Yes...
#> $ JobRole   <fctr> Sales_Executive, Research_Scientist, Laboratory_Tec...
map_dfr(.x = attrition_subset, .f = ~ sum(is.na(.x)))                                                                                                      
#> # A tibble: 1 x 3
#>   Attrition OverTime JobRole
#>       <int>    <int>   <int>
#> 1         0        0       0

#################################################                                                                                                          

# with rpart                                                                                                                                               
attrition_rpart_w_JobRole <- rpart(Attrition ~ OverTime + JobRole, data = attrition_subset, method = "class", cp = .01)                                    
attrition_rpart_w_JobRole                                                                                                                                  
#> n= 1470 
#> 
#> node), split, n, loss, yval, (yprob)
#>       * denotes terminal node
#> 
#>  1) root 1470 237 No (0.83877551 0.16122449)  
#>    2) OverTime=No 1054 110 No (0.89563567 0.10436433) *
#>    3) OverTime=Yes 416 127 No (0.69471154 0.30528846)  
#>      6) JobRole=Healthcare_Representative,Manager,Manufacturing_Director,Research_Director 126  11 No (0.91269841 0.08730159) *
#>      7) JobRole=Human_Resources,Laboratory_Technician,Research_Scientist,Sales_Executive,Sales_Representative 290 116 No (0.60000000 0.40000000)  
#>       14) JobRole=Human_Resources,Research_Scientist,Sales_Executive 204  69 No (0.66176471 0.33823529) *
#>       15) JobRole=Laboratory_Technician,Sales_Representative 86  39 Yes (0.45348837 0.54651163) *

attrition_rpart_wo_JobRole <- rpart(Attrition ~ OverTime, data = attrition_subset, method = "class", cp = .01)                                             
attrition_rpart_wo_JobRole                                                                                                                                 
#> n= 1470 
#> 
#> node), split, n, loss, yval, (yprob)
#>       * denotes terminal node
#> 
#> 1) root 1470 237 No (0.8387755 0.1612245) *

#################################################                                                                                                          

# with caret                                                                                                                                               
attrition_caret_w_JobRole_non_dummies <- train(x = attrition_subset[ , -1], y = attrition_subset[ , 1], method = "rpart", tuneGrid = expand.grid(cp = .01))
attrition_caret_w_JobRole_non_dummies$finalModel                                                                                                           
#> n= 1470 
#> 
#> node), split, n, loss, yval, (yprob)
#>       * denotes terminal node
#> 
#>  1) root 1470 237 No (0.83877551 0.16122449)  
#>    2) OverTime=No 1054 110 No (0.89563567 0.10436433) *
#>    3) OverTime=Yes 416 127 No (0.69471154 0.30528846)  
#>      6) JobRole=Healthcare_Representative,Manager,Manufacturing_Director,Research_Director 126  11 No (0.91269841 0.08730159) *
#>      7) JobRole=Human_Resources,Laboratory_Technician,Research_Scientist,Sales_Executive,Sales_Representative 290 116 No (0.60000000 0.40000000)  
#>       14) JobRole=Human_Resources,Research_Scientist,Sales_Executive 204  69 No (0.66176471 0.33823529) *
#>       15) JobRole=Laboratory_Technician,Sales_Representative 86  39 Yes (0.45348837 0.54651163) *

attrition_caret_w_JobRole <- train(Attrition ~ OverTime + JobRole, data = attrition_subset, method = "rpart", tuneGrid = expand.grid(cp = .01))            
attrition_caret_w_JobRole$finalModel                                                                                                                       
#> n= 1470 
#> 
#> node), split, n, loss, yval, (yprob)
#>       * denotes terminal node
#> 
#> 1) root 1470 237 No (0.8387755 0.1612245)  
#>   2) OverTimeYes< 0.5 1054 110 No (0.8956357 0.1043643) *
#>   3) OverTimeYes>=0.5 416 127 No (0.6947115 0.3052885)  
#>     6) JobRoleSales_Representative< 0.5 392 111 No (0.7168367 0.2831633) *
#>     7) JobRoleSales_Representative>=0.5 24   8 Yes (0.3333333 0.6666667) *

attrition_caret_wo_JobRole <- train(Attrition ~ OverTime, data = attrition_subset, method = "rpart", tuneGrid = expand.grid(cp = .01))                     
attrition_caret_wo_JobRole$finalModel                                                                                                                      
#> n= 1470 
#> 
#> node), split, n, loss, yval, (yprob)
#>       * denotes terminal node
#> 
#> 1) root 1470 237 No (0.8387755 0.1612245) *

最佳答案

这很有道理。上面有很多额外的代码，所以我将重复重要的部分。

library(rsample)
library(rpart)
data(attrition)

rpart(Attrition ~ OverTime + JobRole, data=attrition)
n= 1470 
node), split, n, loss, yval, (yprob)
      * denotes terminal node

 1) root 1470 237 No (0.83877551 0.16122449)  
   2) OverTime=No 1054 110 No (0.89563567 0.10436433) *
   3) OverTime=Yes 416 127 No (0.69471154 0.30528846)  
     6) JobRole=Healthcare_Representative,Manager,Manufacturing_Director,Research_Director 126  11 No (0.91269841 0.08730159) *
     7) JobRole=Human_Resources,Laboratory_Technician,Research_Scientist,Sales_Executive,Sales_Representative 290 116 No (0.60000000 0.40000000)  
      14) JobRole=Human_Resources,Research_Scientist,Sales_Executive 204  69 No (0.66176471 0.33823529) *
      15) JobRole=Laboratory_Technician,Sales_Representative 86  39 Yes (0.45348837 0.54651163) *

rpart(Attrition ~ OverTime, data=attrition)
n= 1470 
node), split, n, loss, yval, (yprob)
      * denotes terminal node

1) root 1470 237 No (0.8387755 0.1612245) *

看一下第一个模型(有两个变量)。就在根目录下面，我们有:

1) root 1470 237 No (0.83877551 0.16122449)        
    2) OverTime=No 1054 110 No (0.89563567 0.10436433) *      
    3) OverTime=Yes 416 127 No (0.69471154 0.30528846)

模型继续拆分节点 3 (OverTime=Yes)，但仅使用 JobRole。由于我们在第二个模型中没有 JobRole，因此 rpart 无法进行其他拆分。但请注意，在节点 2 和 3 处，Attrition=No 是多数类。在节点 3 处，69.5% 的实例为“否”，30.5% 为"is"。因此，对于节点 2 和 3，我们将预测“否”。由于分割两侧的预测相同，因此分割是不必要的并被剪掉。只需要根节点就可以预测所有实例都是No。

关于R:rpart 树使用两个解释变量生长，但在删除不太重要的变量后不再生长，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50072536/

文章推荐： java - 无法从 HTML 字符串格式读取 Src 属性

文章推荐： java - Zeppelin 中的 IndexOutOfBounds 错误

文章推荐： java - 我不断收到这个 java.lang.illegalStateException

MySQL事物(重要)
什么是事物事务是一种机制、一个操作序列，包含了一组数据库操作命令，并且把所有的命令作为一个整体一起向系统提交或撤销操作请求，即这组数据库命令要么都执行,要么都不执行。事务是一个不可分割的工.作逻辑
数据库的三大范式(重要)
什么是范式？简言之就是，数据库设计对数据的存储性能，还有开发人员对数据的操作都有莫大的关系。所以建立科学的，规范的数据库是需要满足一些规范来优化数据数据存储方式。在关系型数据库中这些规范就可以称为范
MySQL事物(重要)
什么是事物事务是一种机制、一个操作序列，包含了一组数据库操作命令，并且把所有的命令作为一个整体一起向系统提交或撤销操作请求，即这组数据库命令要么都执行,要么都不执行。事务是一个不可分割的工.作逻辑
数据库的三大范式(重要)
什么是范式？简言之就是，数据库设计对数据的存储性能，还有开发人员对数据的操作都有莫大的关系。所以建立科学的，规范的数据库是需要满足一些规范来优化数据数据存储方式。在关系型数据库中这些规范就可以称为范
html - 谷歌浏览器扩展覆盖!重要
我正在尝试修改网站的布局，但有时网站会使用 !important，有没有办法覆盖它？我似乎无法弄清楚如何在页面的 css 文件之后加载 css 内容脚本。最佳答案 !important CSS 规则
html - 如何覆盖!重要？
这个问题在这里已经有了答案: How to override !important? (12 个答案) 关闭 9 年前。我写了一些 html，并在第三方网站中注入(inject)了一些 css 样
jquery - 列表样式不显示列表元素尽管!重要？
好的，我在这里安装了一个 wordpress 主题(www.sullivansuccesscoaching.com/home ...我们需要/home，因为仍然有一个 index.html 隐藏了 w
css - 如何覆盖!重要？
我已经为我的 Wordpress 模板创建了一个覆盖原始 CSS 的自定义样式表。但是，在我的日历页面上，原始 CSS 具有使用 !important 声明设置的每个表格单元格的高度: td {hei
javascript - 重要 ES6 代码的文档示例
这个问题在这里已经有了答案: How to document deconstructed parameters with JsDoc (1 个回答) 关闭 5 年前。我正在努力寻找对文档 ES6
css - 媒体查询不起作用，直到我输入!重要
我的网站使用 bootstrap 4 和我制作的 css 文件。在这个 css 文件的底部，我放置了一些媒体查询: @media (max-width: 575px) { .address .c
css 背景位置 X 重要
可以将 background-position X 设置为 0 带有标志 !important 和背景位置 Y 不带 !important? 例如: background-position-x: 0
html - 覆盖 Bootstrap !重要
我只想在焦点状态下去掉下拉列表中的轮廓。看这张图我尝试使用 !important 覆盖 Bootstrap ，但根本不起作用。只是检查开发工具，突然看到这个。 Bootstrap 也使用 !impo
css - 如何覆盖背景颜色 : #000000 ! 重要；
这个问题在这里已经有了答案: How to override !important? (12 个答案) 关闭 1 年前。
jquery - Accordion 动画在将高度设置为自动时损坏!重要
发生了什么事？:我的 jQuery Accordion 的动画坏了。在关闭上一个选项卡之前短时间单击下一个选项卡后，它会显示之前打开的选项卡。动画也不滑动。 CSS:来自this answer /*
javascript - 重写内联 css !重要
如何使用 javascript 或 CSS 覆盖样式“color: red”？我想让它成为“2px”而不是“1px”边框。 Lorem... 我无法向“div”添加类、id。这不
css - 覆盖 CSS !重要
这个问题在这里已经有了答案: How to override !important? (12 个答案) 关闭 5 年前。
jquery - 设置显示 : block ! 重要
滚动有问题不想显示其内容，如果我这样做 #callCenter { position: fixed; z-index: 2411 !important; display: bl
MySQL入门(三) 数据库表的查询操作【重要】
序言　1、MySQL表操作(创建表，查询表结构，更改表字段等)，　2、MySQL的数据类型(CHAR、VARCHAR、BLOB,等)，　本节比较重要，对数据表数据进行查询操作，其中可能大
java - GWT 客户端 bundle !重要
如何将!important添加到客户端包GWT中的gwt-image: 我有这个: @sprite .superButton{ gwt-image : 'superButton'; backg
javascript - 使用 ajax 验证提交和保存表单 - 重要
请帮助我..我想验证表单并使用 ajax 发送。验证没有 ''onsubmit="return validateForm(this);"'' 工作。但是当表单正确时，它的发送表单(页面刷新..)请

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

R:rpart 树使用两个解释变量生长，但在删除不太重要的变量后不再生长