rpart 的结果是根，但数据显示信息增益-6ren

rpart 的结果是根，但数据显示信息增益

转载作者：行者123 更新时间：2023-11-30 08:22:52

我有一个事件率低于 3% 的数据集(即大约有 700 条 1 类记录和 27000 条 0 类记录)。

ID          V1  V2      V3  V5      V6  Target
SDataID3    161 ONE     1   FOUR    0   0
SDataID4    11  TWO     2   THREE   2   1
SDataID5    32  TWO     2   FOUR    2   0
SDataID7    13  ONE     1   THREE   2   0
SDataID8    194 TWO     2   FOUR    0   0
SDataID10   63  THREE   3   FOUR    0   1
SDataID11   89  ONE     1   FOUR    0   0
SDataID13   78  TWO     2   FOUR    0   0
SDataID14   87  TWO     2   THREE   1   0
SDataID15   81  ONE     1   THREE   0   0
SDataID16   63  ONE     3   FOUR    0   0
SDataID17   198 ONE     3   THREE   0   0
SDataID18   9   TWO     3   THREE   0   0
SDataID19   196 ONE     2   THREE   2   0
SDataID20   189 TWO     2   ONE     1   0
SDataID21   116 THREE   3   TWO     0   0
SDataID24   104 ONE     1   FOUR    0   0
SDataID25   5   ONE     2   ONE     3   0
SDataID28   173 TWO     3   FOUR    0   0
SDataID29   5   ONE     3   ONE     3   0
SDataID31   87  ONE     3   FOUR    3   0
SDataID32   5   ONE     2   THREE   1   0
SDataID34   45  ONE     1   FOUR    0   0
SDataID35   19  TWO     2   THREE   0   0
SDataID37   133 TWO     2   FOUR    0   0
SDataID38   8   ONE     1   THREE   0   0
SDataID39   42  ONE     1   THREE   0   0
SDataID43   45  ONE     1   THREE   1   0
SDataID44   45  ONE     1   FOUR    0   0
SDataID45   176 ONE     1   FOUR    0   0
SDataID46   63  ONE     1   THREE   3   0

我正在尝试使用决策树找出分割。但树的结果只有 1 个根。

> library(rpart)
> tree <- rpart(Target ~ ., data=subset(train, select=c( -Record.ID) ),method="class")
> printcp(tree)

Classification tree:
rpart(formula = Target ~ ., data = subset(train, select = c(-Record.ID)), method = "class")

Variables actually used in tree construction:
character(0)

Root node error: 749/18239 = 0.041066

n= 18239 

  CP nsplit rel error xerror xstd
1  0      0         1      0    0

阅读了 StackOverflow 上的大部分资源后，我放松/调整了控制参数，这给了我所需的决策树。

> tree <- rpart(Target ~ ., data=subset(train, select=c( -Record.ID) ),method="class" ,control =rpart.control(minsplit = 1,minbucket=2, cp=0.00002))
> printcp(tree)

Classification tree:
rpart(formula = Target ~ ., data = subset(train, select = c(-Record.ID)), 
    method = "class", control = rpart.control(minsplit = 1, minbucket = 2, 
        cp = 2e-05))

Variables actually used in tree construction:
[1] V5         V2                     V1          
[4] V3         V6

Root node error: 749/18239 = 0.041066

n= 18239 

          CP nsplit rel error xerror     xstd
1 0.00024275      0   1.00000 1.0000 0.035781
2 0.00019073     20   0.99466 1.0267 0.036235
3 0.00016689     34   0.99199 1.0307 0.036302
4 0.00014835     54   0.98798 1.0334 0.036347
5 0.00002000     63   0.98665 1.0427 0.036504

当我修剪这棵树时，它得到了一棵只有一个节点的树。

> pruned.tree <- prune(tree, cp = tree$cptable[which.min(tree$cptable[,"xerror"]),"CP"])
> printcp(pruned.tree)

Classification tree:
rpart(formula = Target ~ ., data = subset(train, select = c(-Record.ID)), 
    method = "class", control = rpart.control(minsplit = 1, minbucket = 2, 
        cp = 2e-05))

Variables actually used in tree construction:
character(0)

Root node error: 749/18239 = 0.041066

n= 18239 

          CP nsplit rel error xerror     xstd
1 0.00024275      0         1      1 0.035781

树不应该只给出根节点，因为从数学上讲，在给定节点(提供的示例)上，我们正在获得信息增益。我不知道我是否在修剪方面犯了错误，或者 rpart 在处理低事件率数据集时存在问题？

NODE    p       1-p     Entropy         Weights         Ent*Weight      # Obs
Node 1  0.032   0.968   0.204324671     0.351398601     0.071799404     10653
Node 2  0.05    0.95    0.286396957     0.648601399     0.185757467     19663

Sum(Ent*wght)       0.257556871 
Information gain    0.742443129

最佳答案

您提供的数据并未反射(reflect)两个目标类别的比率，因此我调整了数据以更好地反射(reflect)这一点(请参阅数据部分):

> prop.table(table(train$Target))

         0          1 
0.96707581 0.03292419 

> 700/27700
[1] 0.02527076

现在比率相对接近......

library(rpart)
tree <- rpart(Target ~ ., data=train, method="class")
printcp(tree)

结果:

Classification tree:
rpart(formula = Target ~ ., data = train, method = "class")

Variables actually used in tree construction:
character(0)

Root node error: 912/27700 = 0.032924

n= 27700 

  CP nsplit rel error xerror xstd
1  0      0         1      0    0

现在，您只看到第一个模型的根节点的原因可能是由于您的目标类极其不平衡，因此您的自变量无法提供足够的信息来生长树。我的样本数据有 3.3% 的事件率，但你的只有 2.5% 左右!

正如您所提到的，有一种方法可以强制rpart 生长树。即覆盖默认的复杂度参数(cp)。复杂性度量是树的大小和树分离目标类的程度的组合。从 ?rpart.control 中，“不会尝试任何不能将总体不适合度减少 cp 因子的分割”。这意味着此时您的模型没有超出根节点的分割，从而降低了足以让 rpart 考虑的复杂性级别。我们可以通过设置较低的或负的 cp 来放宽这个被认为“足够”的阈值(负的 cp 基本上会迫使树生长到其完整大小)。

tree <- rpart(Target ~ ., data=train, method="class" ,parms = list(split = 'information'), 
              control =rpart.control(minsplit = 1,minbucket=2, cp=0.00002))
printcp(tree)

结果:

Classification tree:
rpart(formula = Target ~ ., data = train, method = "class", parms = list(split = "information"), 
    control = rpart.control(minsplit = 1, minbucket = 2, cp = 2e-05))

Variables actually used in tree construction:
[1] ID V1 V2 V3 V5 V6

Root node error: 912/27700 = 0.032924

n= 27700 

           CP nsplit rel error xerror     xstd
1  4.1118e-04      0   1.00000 1.0000 0.032564
2  3.6550e-04     30   0.98355 1.0285 0.033009
3  3.2489e-04     45   0.97807 1.0702 0.033647
4  3.1328e-04    106   0.95504 1.0877 0.033911
5  2.7412e-04    116   0.95175 1.1031 0.034141
6  2.5304e-04    132   0.94737 1.1217 0.034417
7  2.1930e-04    149   0.94298 1.1458 0.034771
8  1.9936e-04    159   0.94079 1.1502 0.034835
9  1.8275e-04    181   0.93640 1.1645 0.035041
10 1.6447e-04    193   0.93421 1.1864 0.035356
11 1.5664e-04    233   0.92654 1.1853 0.035341
12 1.3706e-04    320   0.91228 1.2083 0.035668
13 1.2183e-04    344   0.90899 1.2127 0.035730
14 9.9681e-05    353   0.90789 1.2237 0.035885
15 2.0000e-05    364   0.90680 1.2259 0.035915

如您所见，树的大小已增大到至少将复杂性级别降低了 cp。有两点需要注意:

在 nsplit 为零时，CP 已低至 0.0004，其中 rpart 中的默认 cp设置为 0.01。
从 nsplit == 0 开始，交叉验证错误 (xerror) 随着分割数量的增加而增加。

这两者都表明您的模型过度拟合了 nsplit == 0 及以上的数据，因为向模型中添加更多自变量并没有添加足够的信息(CP 减少不足)来减少交叉验证错误。话虽如此，您的根节点模型是这种情况下的最佳模型，这解释了为什么您的初始模型只有根节点。

pruned.tree <- prune(tree, cp = tree$cptable[which.min(tree$cptable[,"xerror"]),"CP"])
printcp(pruned.tree)

结果:

Classification tree:
rpart(formula = Target ~ ., data = train, method = "class", parms = list(split = "information"), 
    control = rpart.control(minsplit = 1, minbucket = 2, cp = 2e-05))

Variables actually used in tree construction:
character(0)

Root node error: 912/27700 = 0.032924

n= 27700 

          CP nsplit rel error xerror     xstd
1 0.00041118      0         1      1 0.032564

对于修剪部分，现在更清楚为什么您的修剪树是根节点树，因为超过 0 次分割的树会增加交叉验证错误。获取具有最小 xerror 的树将使您得到预期的根节点树。

信息增益基本上告诉您每次分割添加了多少“信息”。因此从技术上讲，每个分割都会有一定程度的信息增益，因为您向模型中添加了更多变量(信息增益始终为非负)。您应该考虑的是，额外的增益(或没有增益)是否足以减少误差，从而使您能够保证更复杂的模型。因此，需要在偏差和方差之间进行权衡。

在这种情况下，减少cp并随后修剪生成的树对您来说并没有什么意义。因为通过设置较低的cp，您可以告诉rpart即使过度拟合也要进行分割，同时修剪“剪切”所有过度拟合的节点。

数据:

请注意，我正在对每列和样本的行进行打乱，而不是对行索引进行采样。这是因为您提供的数据可能不是原始数据集的随机样本(可能有偏差)，因此我基本上是通过现有行的组合随机创建新的观察结果，这有望减少这种偏差。

init_train = structure(list(ID = structure(c(16L, 24L, 29L, 30L, 31L, 1L, 
2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 
17L, 18L, 19L, 20L, 21L, 22L, 23L, 25L, 26L, 27L, 28L), .Label = c("SDataID10", 
"SDataID11", "SDataID13", "SDataID14", "SDataID15", "SDataID16", 
"SDataID17", "SDataID18", "SDataID19", "SDataID20", "SDataID21", 
"SDataID24", "SDataID25", "SDataID28", "SDataID29", "SDataID3", 
"SDataID31", "SDataID32", "SDataID34", "SDataID35", "SDataID37", 
"SDataID38", "SDataID39", "SDataID4", "SDataID43", "SDataID44", 
"SDataID45", "SDataID46", "SDataID5", "SDataID7", "SDataID8"), class = "factor"), 
    V1 = c(161L, 11L, 32L, 13L, 194L, 63L, 89L, 78L, 87L, 81L, 
    63L, 198L, 9L, 196L, 189L, 116L, 104L, 5L, 173L, 5L, 87L, 
    5L, 45L, 19L, 133L, 8L, 42L, 45L, 45L, 176L, 63L), V2 = structure(c(1L, 
    3L, 3L, 1L, 3L, 2L, 1L, 3L, 3L, 1L, 1L, 1L, 3L, 1L, 3L, 2L, 
    1L, 1L, 3L, 1L, 1L, 1L, 1L, 3L, 3L, 1L, 1L, 1L, 1L, 1L, 1L
    ), .Label = c("ONE", "THREE", "TWO"), class = "factor"), 
    V3 = c(1L, 2L, 2L, 1L, 2L, 3L, 1L, 2L, 2L, 1L, 3L, 3L, 3L, 
    2L, 2L, 3L, 1L, 2L, 3L, 3L, 3L, 2L, 1L, 2L, 2L, 1L, 1L, 1L, 
    1L, 1L, 1L), V5 = structure(c(1L, 3L, 1L, 3L, 1L, 1L, 1L, 
    1L, 3L, 3L, 1L, 3L, 3L, 3L, 2L, 4L, 1L, 2L, 1L, 2L, 1L, 3L, 
    1L, 3L, 1L, 3L, 3L, 3L, 1L, 1L, 3L), .Label = c("FOUR", "ONE", 
    "THREE", "TWO"), class = "factor"), V6 = c(0L, 2L, 2L, 2L, 
    0L, 0L, 0L, 0L, 1L, 0L, 0L, 0L, 0L, 2L, 1L, 0L, 0L, 3L, 0L, 
    3L, 3L, 1L, 0L, 0L, 0L, 0L, 0L, 1L, 0L, 0L, 3L), Target = c(0L, 
    1L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 
    0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L, 0L
    )), .Names = c("ID", "V1", "V2", "V3", "V5", "V6", "Target"
), class = "data.frame", row.names = c(NA, -31L))

set.seed(1000)
train = as.data.frame(lapply(init_train, function(x) sample(x, 27700, replace = TRUE)))

关于rpart 的结果是根，但数据显示信息增益，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47029277/

文章推荐： machine-learning - 将用户反馈纳入 ML 模型

文章推荐： artificial-intelligence - 匹配 'noisy' 名称的算法

文章推荐： java - 具有特别命名项目的形状配方？

文章推荐： machine-learning - 如何将依赖路径编码为分类特征？

dart - ShadowDom外部的父级的属性已更改(显示:无->显示:flex->显示:无)
我的Angular-Component位于一个flexbox(id =“log”)中。可以显示或隐藏flexbox。我的组件内部有一个可滚动区域，用于显示日志消息。 (id =“message-li
phpinfo() 显示 MySQL，PMA 显示 MariaDB
我真的很困惑有一个 phpinfo() 输出: MySQL 支持启用客户端 API 版本 5.5.40 MYSQL_MODULE_TYPE 外部 phpMyAdmin 显示: 服务器类型:Mar
jquery - 在 jquery 切换中单击时更改按钮文本(显示/隐藏/显示)
我正在研究这个 fiddle : http://jsfiddle.net/cED6c/7/我想让按钮文本在单击时发生变化，我尝试使用以下代码: 但是，它不起作用。我应该如何实现这个？任何帮助都会很棒
php - cakephp 显示 ID 显示 table.name 来自两个不同表的关系
我应该在“dogs_cats”中保存表“dogs”和“cats”各自的ID，当看到数据时显示狗和猫的名字。我有这三个表: CREATE TABLE IF NOT EXISTS cats ( id
php - 使用 Blade 显示 HTML 显示 HTML 代码
我有一个字符串返回到我的 View 之一，如下所示: $text = 'Lorem ipsum dolor ' 我正在尝试用 Blade 显示它: {{$text}} 但是，输出是原始字符串而不是渲染
jquery - 使用 JQuery 显示/隐藏隐藏/显示 div，但单击按钮没有效果
我无法让我的链接(由图像表示，位于页面左侧)真正有效地显示一个 div(包含一个句子，位于中间)/单击链接时隐藏。这是我的代码: Practice
javascript - 显示 image1 的脚本，然后(随机毫秒)显示 image2 并停止
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
c# - ListView 显示 4 条记录。 DataGridView 显示 3 条记录？
最初我使用 Listview 来显示 oracle 结果，但是最近我不得不切换到 datagridview 来处理比 Listview 允许的更多的结果。然而，自从切换到数据网格后，我得到的结果越来越
xml - 如何使用 Apache fop 显示 Unicode 字符？显示 "?"而不是字符。
我一直在尝试插入一个 Unicode 字符 ∇ 或 ▽，所以它显示在 Apache FOP 生成的 PDF 中。这是我到目前为止所做的: 根据这个基本帮助 Apache XSL-FO Input，您
node.js - pm2 显示 1.2GB 而 heapdump 显示 80MB
我正在使用 node v0.12.7 编写一个 nodeJS 应用程序。我正在使用 pm2 v0.14.7 运行我的 nodejs 应用程序。我的应用程序似乎有内存泄漏，因为它从我启动时的大约 1
jquery - 如果 x 显示 x 如果 y 显示 y(我知道这个标题不好)
好的，所以我有一些 jQuery 代码，如果从下拉菜单中选择了带有前缀 Blue 的项目，它会显示一个输入框。代码: $(function() { $('#text1').hide();
google-chrome - Chrome 中的“检查元素”显示 LESS，但 Firefox 显示 CSS
当我试图检查 Chrome 中的 html 元素时，它显示的是 LESS 文件，而 Firefox 显示的是 CSS 文件。 (我正在使用 Bootstrap 框架) 如何在 Chrome 中查看 c
python - Microsoft Bot Emulator 显示 "sending failed. Retry"。 VSCode 显示 KeyError : 'HTTP_CONTEXT_TYPE'
我是 Microsoft Bot Framework 的新手，我正在通过 youtube 视频 https://youtu.be/ynG6Muox81o 学习它并在 Ubuntu 上使用 python
encoding - notepad++ 显示 ucs-2LE 而 ubuntu FILE [file] 显示 UTF-16LE，我很困惑？
我正在尝试转换从 mssql 生成的文件到 utf-8。当我打开他的输出 mssql在 Windows Server 2003 中使用 notepad++ 将文件识别为 UCS-2LE我使用 file
javascript帮助日期/显示
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
jQuery点击关闭div(显示)
我正在尝试执行单击以打开/关闭一个 div 的功能。这是基本的，但是，点击只显示 div，当我点击“关闭”时，没有任何反应。 $(".inscricao-email").click(function
flutter - 显示/隐藏小部件而不重新创建它
假设我有 2 张卡片，屏幕上一次显示一张。我有一个按钮可以用其他卡片替换当前卡片。现在假设卡 1 上有一些数据，卡 2 上有一些数据，我不想破坏它们每个上的数据，或者我不想再次重建它们中的任何一个。
javascript - 显示()未定义
我正在使用 Eloquent Javascript 学习 Javascript。我在 Firefox 控制台上编写了以下代码，但它返回:“ReferenceError:show() 未定义”为什么？
symfony - 显示/隐藏某些菜单取决于奏鸣曲管理员角色
我正在使用 Symfony2 开发一个 web 项目，我使用 Sonata Admin 作为管理面板，一切正常，但我想要做的是，在 Sonata Admin 的仪表板菜单上，我需要显示隐藏一些菜单取决
angularjs - 显示/隐藏div取决于AngularJS中的下拉列表选择
我试图显示一个div，具体取决于从下拉列表中选择的内容。例如，如果用户从列表中选择“现金”显示现金div或用户从列表中选择“检查”显示现金div 我整理了样本，但样本不完整，需要接线 http://j

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

rpart 的结果是根，但数据显示信息增益