r - 如何在R中计算决策树规则-6ren

r - 如何在R中计算决策树规则

转载作者：行者123 更新时间：2023-11-30 08:28:38

25

4

我使用 RPart 来构建决策树。没有问题，我正在这样做。但是，我需要了解(或计算)树被分割了多少次？我的意思是，树有多少条规则(if-else 语句)？例如:

                  X
                 - - 
        if (a<9)-   - if(a>=9)
               Y     H
              -
      if(b>2)- 
            Z

有 3 条规则。

当我写摘要(模型)时:

summary(model_dt)

Call:
rpart(formula = Alert ~ ., data = train)
  n= 18576811 

         CP nsplit  rel error     xerror         xstd
1 0.9597394      0 1.00000000 1.00000000 0.0012360956
2 0.0100000      1 0.04026061 0.05290522 0.0002890205

Variable importance
         ip.src frame.protocols   tcp.flags.ack tcp.flags.reset       frame.len 
             20              17              17              17              16 
         ip.ttl 
        `    12 

Node number 1: 18576811 observations,    complexity param=0.9597394
  predicted class=yes  expected loss=0.034032  P(node) =1
    class counts: 632206 1.79446e+07
   probabilities: 0.034 0.966 
  left son=2 (627091 obs) right son=3 (17949720 obs)
  Primary splits:
      ip.src          splits as LLLLLLLRRRLLRR ............ LLRLRLRRRRRRRRRRRRRRRR
    improve=1170831.0, (0 missing)

      ip.dts splits as  LLLLLLLLLLLLLLLLLLLRLLLLLLLLLLL, improve=1013082.0, (0 missing)
      tcp.flags.ctl   < 1.5   to the right, improve=1007953.0, (2645 missing)
      tcp.flags.syn < 1.5   to the right, improve=1007953.0, (2645 missing)
      frame.len       < 68    to the right, improve= 972871.3, (30 missing)
  Surrogate splits:
      frame.protocols splits as  LLLLLLLLLLLLLLLLLLLRLLLLLLLLLLL, agree=0.995, adj=0.841, (0 split)
      tcp.flags.ack   < 1.5   to the right, agree=0.994, adj=0.836, (0 split)
      tcp.flags.reset < 1.5   to the right, agree=0.994, adj=0.836, (0 split)
      frame.len       < 68    to the right, agree=0.994, adj=0.809, (0 split)
      ip.ttl          < 230.5 to the right, agree=0.987, adj=0.612, (0 split)

Node number 2: 627091 observations
  predicted class=no   expected loss=0.01621615  P(node) =0.03375666
    class counts: 616922 10169
   probabilities: 0.984 0.016 

Node number 3: 17949720 observations
  predicted class=yes  expected loss=0.0008514896  P(node) =0.9662433
    class counts: 15284 1.79344e+07
   probabilities: 0.001 0.999

如果有人帮助我理解它，我将不胜感激

真诚的埃雷

最佳答案

通过了解如何返回树对象 ( ?rpart.object )，有几种方法可以实现此目的。

按照 kyphosis 中的第一个示例，我将展示在 R 中使用 ?rpart 数据集的两种方法:

fit <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis)

选项 1

> tail(fit$cptable[, "nsplit"], 1)
3 
4
> unname(tail(fit$cptable[, "nsplit"], 1)) ## or
[1] 4

来自 cptable ，其中包含有关给定大小的树的成本复杂性的信息

> fit$cptable
          CP nsplit rel error   xerror      xstd
1 0.17647059      0 1.0000000 1.000000 0.2155872
2 0.01960784      1 0.8235294 1.176471 0.2282908
3 0.01000000      4 0.7647059 1.176471 0.2282908

据我所知，该表的最后一行将引用当前最大的树。如果根据 CP 将树修剪到特定大小，则该矩阵的最后一行将包含该大小的树的信息:

> fit2 <- prune(fit, cp = 0.02)
> fit2$cptable
         CP nsplit rel error   xerror      xstd
1 0.1764706      0 1.0000000 1.000000 0.2155872
2 0.0200000      1 0.8235294 1.176471 0.2282908

选项 2

第二个选项是计算拟合模型的 <leaf> 组件的 var 列中 frame 的出现次数:

> fit$frame
      var  n wt dev yval complexity ncompete nsurrogate    yval2.V1    yval2.V2
1   Start 81 81  17    1 0.17647059        2          1  1.00000000 64.00000000
2   Start 62 62   6    1 0.01960784        2          2  1.00000000 56.00000000
4  <leaf> 29 29   0    1 0.01000000        0          0  1.00000000 29.00000000
5     Age 33 33   6    1 0.01960784        2          2  1.00000000 27.00000000
10 <leaf> 12 12   0    1 0.01000000        0          0  1.00000000 12.00000000
11    Age 21 21   6    1 0.01960784        2          0  1.00000000 15.00000000
22 <leaf> 14 14   2    1 0.01000000        0          0  1.00000000 12.00000000
23 <leaf>  7  7   3    2 0.01000000        0          0  2.00000000  3.00000000
3  <leaf> 19 19   8    2 0.01000000        0          0  2.00000000  8.00000000
      yval2.V3    yval2.V4    yval2.V5 yval2.nodeprob
1  17.00000000  0.79012346  0.20987654     1.00000000
2   6.00000000  0.90322581  0.09677419     0.76543210
4   0.00000000  1.00000000  0.00000000     0.35802469
5   6.00000000  0.81818182  0.18181818     0.40740741
10  0.00000000  1.00000000  0.00000000     0.14814815
11  6.00000000  0.71428571  0.28571429     0.25925926
22  2.00000000  0.85714286  0.14285714     0.17283951
23  4.00000000  0.42857143  0.57142857     0.08641975
3  11.00000000  0.42105263  0.57894737     0.23456790

该值 - 1 是分割数。为了进行计数，我们可以使用:

> grepl("^<leaf>$", as.character(fit$frame$var))
[1] FALSE FALSE  TRUE FALSE  TRUE FALSE  TRUE  TRUE  TRUE
> sum(grepl("^<leaf>$", as.character(fit$frame$var))) - 1
[1] 4

我使用的正则表达式可能有点过大，但它意味着检查以 ( ^ ) 开头并以 ( $ ) "<leaf>" 结尾的字符串，即这是整个字符串。我使用 grepl() 将 var 列上的匹配项作为逻辑向量返回，我们可以将 TRUE 求和并从中减去 1。由于 var 存储为因子，因此我在 grepl() 调用中将其转换为字符向量。

您还可以使用 grep() 来返回匹配项的索引并使用 length() 来对它们进行计数:

> grep("^<leaf>$", as.character(fit$frame$var))
[1] 3 5 7 8 9
> length(grep("^<leaf>$", as.character(fit$frame$var))) - 1
[1] 4

关于r - 如何在R中计算决策树规则，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23961445/

25

4

0

文章推荐： javascript - 在使用 .map 调用的 JavaScript 类函数中使用 'this'

文章推荐： javascript - 如何在 chart.js 中为条形图绘制基线

文章推荐： machine-learning - 刷新监督学习的训练数据——如何做？

kubernetes - CORS 规则 nginx-ingress 规则
我需要在 nginx-ingress 版本上允许来自多个来源的请求:http://localhost:4200、http://localhost:4242 等1.7.1.但我无法对多个来源执行此操作，
apache - htaccess 规则 (mod_rewrite) 转换为 web.config 规则
我正在部署我使用 APIGILITY 开发的 API到 IIS。由于 IIS 不支持 .htaccess，我试图从 .htaccess 文件的内容创建 web.config 文件。我使用 IISv7.
"google' s 检查元素上的 html 规则 VS css 规则”
我正在尝试更改上面 css 样式中的“宽度”规则。在“inspect element”中你可以看到宽度是1008px。我不希望它是 1008px 但它不会让我在 css 样式中更改它你可以看到它被“删
css - 每个 html 元素的 css 规则 VS 每个元素的几个简单的 css 规则？
外部css赋值有2种方法，我用的是第一种；大多数网站使用第二种方法。我想知道我是否做错了! 第一种方法: 为几乎每个 css 规则创建一个类并在任何地方使用它们。 blah blah .f_
03、RDF 规则
RDF使用 WEB 标识符 (URIs) 来标识资源，使用属性和属性值来描述资源 RDF 资源、属性和属性值 RDF使用 WEB 标识符来标识事物，并通过属性和属性值来描述资源。关于资源、属性
R 规则，仅我的规则来自特定列
我想挖掘特定的 rhs 规则。文档中有一个示例证明这是可能的，但仅适用于特定情况(如下所示)。先来一个数据集来说明我的问题: input {b=100002} 0.2500000 0.250000
服务根的 nginx 规则
我想让 nginx 从网站根目录(:http://localhost:8080/)提供一个静态文件，但它为我的代理通行证提供服务；它提供“/”规则而不是“=/”。这是我的 nginx 配置的样子:
具有用于单次调用的多个目标的 Makefile 规则
根据gnu make documentation , 如果一个规则通过一次调用生成多个目标(例如，一个配方执行一个带有多个输出文件的工具)，你可以使用 '&:' 规则语法来告诉 make。但是，当在多
Firebase 规则 : What is . 包含()？
我已阅读Firebase Documentation并且不明白什么是 .contains()。以下是文档中 Firebase 数据库的示例规则: { "rules": { "rooms"
haskell - 函数内的格式化语句 - 规则？
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 6 年前。 Improv
java多态后期绑定(bind)规则
我正在尝试做一些多态性练习，但我无法弄清楚这种多态性是如何工作的。我没有找到任何关于这种练习的深入信息。希望大家能给我一些解释。练习1: class Top { public void m(
保留中间文件的 Makefile 规则
为了调试复杂的 XSLT 转换，我将其分为几个部分:首先构建 %.1.xml，然后使用它构建 %.2.xml ，最后构建 %.3.xml。一切正常，但如果我要求 Make 构建最后一个，Make 总是
python - 如何添加验证特征/规则？
我尝试了 hacerrank 的 slove 练习 Click我不知道如何添加这些规则: ► 它可以包含 4 个一组的数字，并用一个连字符“-”分隔。 ► 不得有 4 个或更多连续重复数字。这是我的
c# - 我如何使声明遵循与以前相同的 "if"规则
我正在尝试编写一个小测验，我希望“再试一次”按钮遵循与“else”之前的“if”语句相同的规则 using System; public class Program { public stat
java - Spring服务方法和复杂的验证逻辑/规则
在我的 Spring/Boot Java 项目中，我有一组服务方法，例如以下一个: @Override public Decision create(String name, String descr
协变虚函数的 C++ 规则
我正在阅读 Covariant virtual function .上面写着假设 B::f 覆盖了虚函数 A::f。如果满足以下所有条件，A::f 和 B::f 的返回类型可能不同: 1) The
iOS 企业开发者计划 - 规则
我工作的公司想要分发(在公共(public)链接中)具有内部签名的应用程序。我很确定 Apple 否认这种事情，但我在官方文档/契约(Contract)中没有找到任何相关信息。有谁知道它到底是如何工
页面加载时不应用 css 规则
我是 CSS 新手。我观察到一个奇怪的 CSS 行为，其中一个元素具有以下 CSS 属性 .container .header{ color: #FFFFFF; font-size: 2em;
基于内容的 CSS 规则
这个问题在这里已经有了答案: Is there a CSS selector for elements containing certain text? (21 个答案) 关闭 7 年前。
不应用 CSS 规则
我有以下 CSS: workoutcal.css: .errorlist{ color:red; } 以下基本模板: base.html: {% load static %} {

首页

博学

6Ren·AI

商城