gpt4 book ai didi

r - 向树添加信息 - Rpart

转载 作者:行者123 更新时间:2023-12-04 09:09:40 24 4
gpt4 key购买 nike

我想向我的树添加一些信息。例如,假设我有一个这样的数据库:

library(rpart)
library(rpart.plot)
set.seed(1)
mydb<-data.frame(results=rnorm(1000,0,1),expo=runif(1000),var1=sample(LETTERS[1:4],1000,replace=T),
var2=sample(LETTERS[5:6],1000,replace=T),var3=sample(LETTERS[20:25], 1000,replace=T))

我可以运行一棵树:
mytree<-rpart(results~var1+var2+var3,data=mydb,cp=0)
pfit<- prune(mytree, cp=mytree$cptable[4,"CP"])
prp(pfit,type=1,extra=100,fallen.leaves=F,shadow.col="darkgray",box.col=rgb(0.8,0.9,0.8))

结果如下所示:
enter image description here

这对我来说没问题,但让我们想象一下我想知道每片叶子的平均暴露量。

我知道我可以向 prp 添加一些信息,例如每个叶子的重量和一个函数:
node.fun1 <- function(x, labs, digits, varlen)
{
paste("Weight \n",x$frame$wt)
}

prp(pfit,type=1,extra=100,fallen.leaves=F,shadow.col="darkgray",box.col=rgb(0.8,0.9,0.8),node.fun = node.fun1)

enter image description here

但它只有在框架中计算时才有效,即 rpart 函数的结果。

我的问题 :

我如何将自定义信息添加到绘图中,例如平均曝光率,或任何其他计算自定义指标并将其添加到表中的函数 frame ?

最佳答案

这真的很好,我不知道这是一个选择。

所有的工作似乎都是获取每个节点上使用的原始数据的子集。这对于终端节点来说很容易,但我没有找到一种直接的方法来识别在每个节点中使用的数据行,而不仅仅是叶子。如果有人知道更简单的方法,我很想听听。

library('rpart.plot')
set.seed(1)
mydb<-data.frame(results=rnorm(1000,0,1),expo=runif(1000),var1=sample(LETTERS[1:4],1000,replace=T),
var2=sample(LETTERS[5:6],1000,replace=T),var3=sample(LETTERS[20:25], 1000,replace=T))
mytree<-rpart(results~var1+var2+var3,data=mydb,cp=0)
pfit<- prune(mytree, cp=mytree$cptable[4,"CP"])

rpart.plot(pfit)

enter image description here

定义需要 x 的新函数,拟合结果 rpart (我没有研究其他论点,但小插图应该会有所帮助)。

对于 x$frame 的每一行我们需要获取用于计算汇总统计的数据。不幸的是, x$where只告诉我们每个观察所在的终端节点。所以对于每个节点号,我们使用 subset.rpart获取基础数据,并随心所欲地使用它
f <- function(x, labs, digits, varlen) {
nodes <- as.integer(rownames(x$frame))
z <- sapply(nodes, function(y) {
data <- subset.rpart(x, y)
c(mean = mean(data$expo), nrow(data), nrow(data) / length(x$where) * 100)
})
sprintf('Mean expo: %.2f\nn=%.0f (%.0f%%)', z[1, ], z[2, ], z[3, ])
}

prp(pfit, type=1, extra=100, fallen.leaves=FALSE,
shadow.col="darkgray", box.col=rgb(0.8,0.9,0.8),
node.fun = f)

enter image description here

工作由 subset.rpart 完成它接受一个节点号并返回 data 的子集节点上使用。
subset.rpart <- function(tree, node = 1L) {
## returns subset of tree$call$data used on any node
data <- eval(tree$call$data, parent.frame(1L))
wh <- sapply(as.integer(rownames(tree$frame)), parent)
wh <- unique(unlist(wh[sapply(wh, function(x) node %in% x)]))
data[rownames(tree$frame)[tree$where] %in% wh[wh >= node], ]
}

parent <- function(x) {
## returns vector of parent nodes
if (x[1] != 1)
c(Recall(if (x %% 2 == 0L) x / 2 else (x - 1) / 2), x) else x
}

测试
## tests
dim(subset.rpart(pfit, 1)) == dim(mydb)
# [1] TRUE TRUE

## terminal nodes
nodes <- as.integer(rownames(pfit$frame[pfit$frame$var %in% '<leaf>', ]))
sum(sapply(nodes, function(x) nrow(subset.rpart(pfit, x)))) == nrow(mydb)
# [1] TRUE

关于r - 向树添加信息 - Rpart,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39706310/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com