r - partykit minsize 选项删除超过 minsize 的分支-6ren

r - partykit minsize 选项删除超过 minsize 的分支

转载作者：行者123 更新时间：2023-12-04 11:23:24

25

4

我正在使用 lmtree()来自 partykit 的函数使用线性回归对数据进行分区。回归使用权重，我想确保每个分支都有一个最小总权重，我用 minsize 指定选项。例如，在下面的示例中，树只有两个分支而不是三个，因为 x1=="C"权重太小，无法在其自己的分支中。

n <- 100
X <- rbind(
  data.frame(TT=1:n, x1="A", weight=2, y=seq(1,l=n,by=0.2)+rnorm(n,sd=.2)),
  data.frame(TT=1:n, x1="B", weight=2, y=seq(1,l=n,by=0.4)+rnorm(n,sd=.2)),
  data.frame(TT=1:n, x1="C", weight=1, y=seq(1,l=n,by=0.6)+rnorm(n,sd=.2))
)
X$x1 <- factor(X$x1)
tr <- lmtree(y ~ TT | x1, data=X, weight=weight, minsize=150)

Fitted party:
[1] root
|   [2] x1 in A: n = 200
|       (Intercept)          TT 
|         0.7724903   0.2002023 
|   [3] x1 in B, C: n = 300
|       (Intercept)          TT 
|         0.5759213   0.4659592

我也有一些现实世界的数据，不幸的是，这些数据是 secret 的，但会导致一些我不理解的行为。当我不指定minsize时它构建了一棵有 30 个分支的树，其中每个分支的总重量 n是一个很大的数字。但是，当我指定一个 minsize这远低于第一棵树的每个分支的总重量，结果是一棵分支更少的新树。我根本没想到这棵树会发生变化，因为看起来 minsize不具有约束力。这个结果有什么解释吗？

更新

举个例子

n <- 100
X <- rbind(
  data.frame(TT=1:n, x1=runif(n, 0.0, 0.3), weight=2, y=seq(1,l=n,by=0.2)+rnorm(n,sd=.2)),
  data.frame(TT=1:n, x1=runif(n, 0.3, 0.7), weight=2, y=seq(1,l=n,by=0.4)+rnorm(n,sd=.2)),
  data.frame(TT=1:n, x1=runif(n, 0.7, 1.0), weight=1, y=seq(1,l=n,by=0.6)+rnorm(n,sd=.2))
)
tr <- lmtree(y ~ TT | x1, data=X, weights = weight)

Fitted party:
[1] root
|   [2] x1 <= 0.29787: n = 200
|       (Intercept)          TT 
|         0.8431985   0.1994021 
|   [3] x1 > 0.29787
|   |   [4] x1 <= 0.69515: n = 200
|   |       (Intercept)          TT 
|   |         0.6346980   0.3995678 
|   |   [5] x1 > 0.69515: n = 100
|   |       (Intercept)          TT 
|   |         0.4792462   0.5987472

现在让我们设置minsize=150 .即使 x1 <= 0.3 树不再有任何 split 和 x1 > 0.3会工作。

tr <- lmtree(y ~ TT | x1, data=X, weights = weight, minsize=150)

Fitted party:
[1] root: n = 500
    (Intercept)          TT 
      0.6870078   0.3593374

最佳答案

在 mob()(lmtree() 的基础设施)中应用的两条规则在此上下文中很重要，可能会从更明确的讨论中获益:

如果 mob() 在任何阶段选择一个 split 变量，然后不会导致单个可接受的 split (根据最小节点大小)，则 split 会在该点停止。这与 ctree() 形成对比，如果检测到重要测试，它总是执行拆分 - 即使次优变量不重要。对此提供更精细的控制可能会很好 - 我们已将其列入我们即将对软件包进行修订的愿望 list 。
默认情况下，weights 被解释为案例权重，即 mob() 认为有 w 个独立观察结果相同到给定的。因此，观察的数量是权重的总和。但请注意，这也会影响样本量增加的显着性检验!

至于您的主要问题:如果没有任何可重现的示例，很难给出解释。我同意 partykit 应该按照您描述的方式运行 - 但也许有一个重要但不是很明显的细节您还没有注意到......如果您能提出来就好了使用可复制问题的小型/简单人工数据集。

更新

正如评论中已经指出的那样:感谢您在更新的问题中提供可重现的示例。这帮助我找到了 mob() 中处理案例权重的错误。在存在案例权重的情况下，检验统计量的计算存在错误，从而导致不正确的拆分变量选择和停止标准。我刚刚修复了这个错误，新的 partykit 开发版本可以从 R-Forge 获得，地址是 https://r-forge.r-project.org/R/?group_id=261 . (但是请注意，R-Forge 目前只为 R 3.3.x 构建 Windows 二进制文件。如果使用更新的 Windows 版本，请使用 type = "source" 安装源包- 并确保您安装了必要的 Rtools。)

在您的示例中，我只是设置了一个随机种子以实现精确的再现性。加权数据设置为:

set.seed(1)
n <- 100
X <- rbind(
  data.frame(TT=1:n, x1=runif(n, 0.0, 0.3), weight=2, y=seq(1,l=n,by=0.2)+rnorm(n,sd=.2)),
  data.frame(TT=1:n, x1=runif(n, 0.3, 0.7), weight=2, y=seq(1,l=n,by=0.4)+rnorm(n,sd=.2)),
  data.frame(TT=1:n, x1=runif(n, 0.7, 1.0), weight=1, y=seq(1,l=n,by=0.6)+rnorm(n,sd=.2))
)

然后可以像以前一样拟合加权树。在此特定示例中，树结构保持不受影响，但每个节点中参数不稳定性测试的测试统计信息和 p 值发生了一些变化:

library("partykit")
tr1 <- lmtree(y ~ TT | x1, data = X, weights = weight)
plot(tr1)

添加 minsize = 150 参数现在具有避免节点 3 split 的预期效果。

tr2 <- lmtree(y ~ TT | x1, data = X, weights = weight, minsize = 150)
plot(tr2)

为了检查后者是否确实做了正确的事情，我们将它与明确扩展数据的树进行比较。因此，由于这里的数据被视为案例权重，我们可以通过重复权重大于 1 的那些观察来膨胀数据集。

Xw <- X[rep(1:nrow(X), X$weight), ]
tr3 <- lmtree(y ~ TT | x1, data = Xw, minsize = 150)

结果系数相同(直到非常小的数值差异):

all.equal(coef(tr2), coef(tr3))
## [1] TRUE

而且，更重要的是，节点中的所有测试统计信息和 p 值也相同:

library("strucchange")
all.equal(sctest(tr2), sctest(tr3))
## [1] TRUE

关于r - partykit minsize 选项删除超过 minsize 的分支，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45311767/

25

4

0

文章推荐： mediawiki - 如何在 MediaWiki 中更改用户的电子邮件地址

文章推荐： android - onActivityResult 已弃用如何发送 startResolutionForResult

文章推荐： svelte - 汇总插件的顺序重要吗？

文章推荐： r - 计算每个用户的订单数量并计算每个用户每个订单的平均值

iPhone:删除/删除 SQLite 数据库？
我知道如何通过iPhone开发创建sqlite数据库、向其中插入数据、删除行等，但我试图以编程方式删除整个数据库本身，但没有得到任何帮助。请有人指导我如何通过代码从设备中删除/删除整个 sqlite
teradata - 删除/删除 Teradata 中的数据库
请帮助指导如何在 Teradata 中删除数据库。当我运行命令DROP DATABASE database_name时，我收到错误消息: *** Failure 3552 Cannot DROP d
azure - 删除/删除 Azure 警报规则
Azure 警报规则的删除命令似乎不起作用，尝试了下面的方法，它返回状态为无内容，并且警报未被删除使用的命令Remove-AzAlertRule -ResourceGroup "RGName"-Na
elasticsearch - Elasticsearch 数据丢失/删除/删除
我在 flex 搜索中为大约50000个视频建立了索引，但是当它达到52000左右时，所有数据都被删除。嗯，这对我来说真的很奇怪，我没有为ES设置任何Heap大小或最小或最大大小的内存大小，因此它们没
python - Django:删除/删除 slug
我正在处理的问题是表单错误“输入由字母、数字、下划线或连字符组成的有效‘slug’。” 以下是我的表单字段验证: def clean_slug(self): slug = self.c
jQuery 删除 : $ ("..."). 删除() 与 .remove ("...")
阅读文档，我希望 $("#wrap2").remove(".error") 从中删除所有 .error 元素#wrap2。然而看看这个 JSFiddle: http://jsfiddle.net/h
php - 删除/删除 laravel 项目
嗨，我第一次尝试发现 laravel 我从 laravel 4.2 开始，我刚刚创建了一个新项目，但我误以为我写了这样的命令行 composer create-project laravel/lara
Apache 2.4 - 删除 |删除 |卸载
我已经在网上搜索了很长一段时间，但我找不到如何完全删除 apache 2.4 。使用: Windows 7 c:\apache24\ 我已经尝试了所有命令，但没有任何效果。 httpd -k shu
python - 删除/删除 pandas DataFrame 中任意列中具有特定字符串的行
可能是一个简单的答案，所以提前道歉(最少的编码经验)。我正在尝试从任何列中删除具有特定字符串(经济 7)的任何行，并且一直在尝试离开此线程: How to drop rows from pandas
c++ - 删除/删除 vector 项的最有效/最快的方法
有几种方法可以删除/移除 vector 中的项目。我有一个指针 vector ，我需要在类的析构函数中删除所有指针。什么是最有效/最快甚至最安全的方式？ // 1º std::for_each(v
linux - 删除 xinetd 导致 plesk 删除
我安装了一个 VNC 服务器并在某处阅读了我必须安装 xinetd 的信息。稍后我决定删除 VNC 服务器，所以我也删除了 xinetd。似乎 xinetd 删除了一些与 plesk 相关的文件，如果
android - 如何完全杀死/删除/删除/停止 AsyncTask
我制作了一个从我们的服务器下载视频的应用。问题是: 当我取消下载时，我打电话: myAsyncTask.cancel(true) 我注意到，myAsyncTask 并没有在调用取消时停止...我的 P
machine-learning - 删除/删除 Vertica 中的机器学习模型(如果存在)
是否可以在使用DELETE_MODEL删除模型之前检查模型是否存在我试图避免在尝试删除尚未创建的模型时收到错误消息。基本上我正在寻找对应的: DROP TABLE IF EXISTS 但对于模型。最
php - 如何使用 php 删除/删除 mySQL 中的特定表行？
我已经有了这个代码: 但它仍然会生成一个表行条目。我想做的是，当输入的数量为0时，表行将被删除。请耐心等待，因为我是 php 和 mySQL 编码新手。最佳答案您忘记执行查询。应该是 $que
c# - 删除 EWS 中的 Exchange 事件修改/删除(即恢复事件)
在 SharePoint 中，如果您删除/修改重复日历条目的单次出现，则不会真正删除/修改任何内容 - 相反，会创建一个新条目，告诉 SP 对于特定日期，该事件不存在或具有新参数. 因此，这可以通过删
javascript - Laravel 5.2 & Dropzone.js - 删除(删除)上传的图片
在 routes.php 中我有以下路由: Route::post('dropzone', ['as' => 'dropzone.upload', 'uses' => 'AdminPhotoContr
Node.JS app.get 错误..无法获取/删除/删除/15
在我的应用程序中，我正在尝试删除产品。当我第一次删除产品时，它会成功并且 URL 更改为/remove_category/15。我正在渲染到同一页面。现在，当我尝试删除另一个产品时，网址更改为/rem
bash - 匹配后如何使用 BSD/OS X sed 删除/删除 X 行
这个问题被问了很多次，但给出的答案都是 GNU sed 特定的。 sed -i '' "/${FIND}/,+2d""$FILE" 给出“预期的上下文地址”错误。有人可以给我一个例子，说明如何使用
javascript - Google Maps JavaScript API V3 - 卸载/解构/删除/删除
在使用 V3 API 时，我找不到任何方法来删除和清理 Google map 。我已经在 AJAX 站点中运行它，所以我想完全关闭它而无需重新加载页面。我希望有一个 .unload() 或 .de
sql-server - 如何创建一个可以创建/更改/删除 View 但不能表、可以读取数据但不能插入/更新/删除/截断数据的 Azure SQL 数据库用户？
是否可以创建一个 Azure SQL 数据库用户来执行以下操作: 针对所有表和 View 进行 SELECT 创建/更改/删除 View 但用户不应该不拥有以下权限: 针对任何表或 View 插入/更

首页

博学

6Ren·AI

商城

r - partykit minsize 选项删除超过 minsize 的分支

更新