r - 为什么 R 中不同的随机森林实现会产生不同的结果？-6ren

r - 为什么 R 中不同的随机森林实现会产生不同的结果？

转载作者：行者123 更新时间：2023-11-30 09:17:16

我承认，除了编写这些问题的人之外，向任何人提出这个问题都有点困难，但我在 R 中的三个不同版本的随机森林中获得了持续不同的结果。

这三个方法是 randomForest 包、caret 中的“rf”方法和 ranger 包。代码包含在下面。

相关数据只是一个例子；我在类似数据的其他规范中看到了类似的情况。

LHS 变量:政党标识(民主党、众议员、独立党)。右手边的预测因素是人口统计数据。为了试图弄清楚一些 bizarre results in the randomForest package 到底发生了什么，我尝试在其他两种方法中实现相同的模型。我发现他们不会重现那个特定的异常现象；这特别奇怪，因为据我所知，caret 中的 rf 方法只是 randomForest 包的间接使用。

我在每个实现中运行的三个规范是(1)三类别分类，(2)删除独立类别，以及(3)与 2 相同，但将单个观察扰乱为“独立”以保留三个类别模型，它应该产生与 2 类似的结果。据我所知，在任何情况下都不应该有任何过度或不足的采样来解释结果。

我还注意到以下趋势:

randomForest 软件包是唯一一个完全困惑的软件包，只有两个类别。
护林员包始终将更多观察结果识别为独立个体(无论是正确还是错误)。
就整体预测准确性而言，护林员套件总是稍差一些。
caret 包的整体准确度与 randomForest 相似(稍高)，但在较常见的类上始终表现较好，在较不常见的类上较差。这很奇怪，因为据我所知，在这两种情况下我都没有实现任何过采样或欠采样，并且因为我认为插入符依赖于 randomForest 包。

下面我包含了代码和混淆矩阵，显示了相关差异。每次重新运行代码都会在混淆矩阵中产生类似的趋势；这不是一个“任何单独的运行都可能产生奇怪结果”的问题。

有谁知道为什么这些包会始终产生略有不同(并且在 randomForest 中的链接问题的情况下，非常不同)的结果，或者甚至更好，为什么它们会以这种特定方式不同？例如，我应该注意这些包的包中是否存在某种样本加权/分层？

代码:

num_trees=1001
var_split=3

load("three_cat.Rda")
rf_three_cat  <-randomForest(party_id_3_cat~{RHS Vars},
                         data=three_cat,
                         ntree=num_trees,
                         mtry=var_split,
                         type="classification",
                         importance=TRUE,confusion=TRUE)

two_cat<-subset(three_cat,party_id_3_cat!="2. Independents")    
two_cat$party_id_3_cat<-droplevels(two_cat$party_id_3_cat)
rf_two_cat    <-randomForest(party_id_3_cat~{RHS Vars},
                         data=two_cat,
                         ntree=num_trees,
                         mtry=var_split,
                         type="classification",
                         importance=TRUE,confusion=TRUE)
scramble_independent<-subset(three_cat,party_id_3_cat!="2. Independents")
scramble_independent[1,19]<-"2. Independents"
scramble_independent<- data.frame(lapply(scramble_independent, as.factor), stringsAsFactors=TRUE)
rf_scramble<-randomForest(party_id_3_cat~{RHS Vars},
                      data=scramble_independent,
                      ntree=num_trees,
                      mtry=var_split,
                      type="classification",
                      importance=TRUE,confusion=TRUE)

ranger_2<-ranger(formula=party_id_3_cat~{RHS Vars},
             data=two_cat,
             num.trees=num_trees,mtry=var_split)
ranger_3<-ranger(formula=party_id_3_cat~{RHS Vars},
             data=three_cat,
             num.trees=num_trees,mtry=var_split)
ranger_scram<-ranger(formula=party_id_3_cat~{RHS Vars},
                 data=scramble_independent,
                 num.trees=num_trees,mtry=var_split)

rfControl <- trainControl(method = "none", number = 1, repeats = 1)
rfGrid <- expand.grid(mtry = c(3))
rf_caret_3        <- train(party_id_3_cat~{RHS Vars},
                      data=three_cat,
                      method="rf", ntree=num_trees,
                      type="classification",
                      importance=TRUE,confusion=TRUE,
                      trControl = rfControl, tuneGrid = rfGrid)
rf_caret_2        <- train(party_id_3_cat~{RHS Vars},
                data = two_cat,
                method = "rf",ntree=num_trees,
                type="classification",
                importance=TRUE,confusion=TRUE,
                trControl = rfControl, tuneGrid = rfGrid)
rf_caret_scramble <- train(party_id_3_cat~{RHS Vars},
                      data = scramble_independent,
                      method = "rf",ntree=num_trees,
                      type="classification",
                      importance=TRUE,confusion=TRUE,
                      trControl = rfControl, tuneGrid = rfGrid)

rf_three_cat$confusion
ranger_3$confusion.matrix
rf_caret_3$finalModel["confusion"]

rf_two_cat$confusion
ranger_2$confusion.matrix
rf_caret_2$finalModel["confusion"]

rf_scramble$confusion
ranger_scram$confusion.matrix
rf_caret_scramble$finalModel["confusion"]

结果(为便于比较，格式略有修改):

> rf_three_cat$confusion
                                     1. Democrats (including leaners) 2. Independents 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                                 1121               3                                697   0.3844042
2. Independents                                                   263               7                                261   0.9868173
3. Republicans (including leaners)                                509               9                               1096   0.3209418                        

> ranger_3$confusion.matrix
                                   1. Democrats (including leaners) 2. Independents 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                               1128              46                                647   0.3805601
2. Independents                                                 263              23                                245   0.9566855
3. Republicans (including leaners)                              572              31                               1011   0.3736059

> rf_caret_3$finalModel["confusion"]
                                     1. Democrats (including leaners) 2. Independents 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                                 1268               0                                553   0.3036793
2. Independents                                                   304               0                                227   1.0000000
3. Republicans (including leaners)                                606               0                               1008   0.3754647

> rf_two_cat$confusion
                                     1. Democrats (including leaners) 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                                 1775                                 46   0.0252608
3. Republicans (including leaners)                               1581                                 33   0.9795539

> ranger_2$confusion.matrix
                                   1. Democrats (including leaners) 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                               1154                                667   0.3662823
3. Republicans (including leaners)                              590                               1024   0.3655514

> rf_caret_2$finalModel["confusion"]
                                   1. Democrats (including leaners) 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                               1315                                  506   0.2778693
3. Republicans (including leaners)                              666                                  948   0.4126394

> rf_scramble$confusion
                                     1. Democrats (including leaners) 2. Independents 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                               1104               0                                717   0.3937397
2. Independents                                                   0               0                                  1   1.0000000
3. Republicans (including leaners)                              501               0                               1112   0.3106014

> ranger_scram$confusion.matrix
                                   1. Democrats (including leaners) 2. Independents 3. Republicans (including leaners)
1. Democrats (including leaners)                               1159               0                               662  0.3635365
2. Independents                                                   0               0                                 1  1.0000000
3. Republicans (including leaners)                              577               0                              1036  0.3577185

> rf_caret_scramble$finalModel["confusion"]
                                   1. Democrats (including leaners) 2. Independents 3. Republicans (including leaners) class.error
1. Democrats (including leaners)                               1315               0                                506   0.2778693
2. Independents                                                   0               0                                  1   1.0000000
3. Republicans (including leaners)                              666               0                                947   0.4128952

最佳答案

首先，随机森林算法是......随机的，因此默认情况下会出现一些变化。其次，更重要的是，算法不同，即它们使用不同的步骤，这就是为什么你会得到不同的结果。

您应该看看他们如何执行分割(哪个标准:基尼、额外等)，如果这些是随机的(极其随机的树)，他们如何对引导样本进行采样(有/没有替换)以及比例是多少、mtry 或每次分割时选择多少个变量、节点中的最大深度或最大情况等。

关于r - 为什么 R 中不同的随机森林实现会产生不同的结果？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52263749/

文章推荐： python - 在 TensorFlow 中使用图像批处理进行多次运行

文章推荐： javascript - 使用javascript创建基本按钮

文章推荐： python - 如何使用 "onehot_enc"实现朴素贝叶斯算法？

Python 随机随机
我让随机数低于之前的随机数。 if Airplane==1: while icounter0: print "You have enoph fuel to get to New
随机 BigFloats Julia
是否可以生成 BigFloat 的随机数？类型均匀分布在区间 [0,1)? 我的意思是，因为 rand(BigFloat)不可用，看来我们必须使用 BigFloat(rand())为了那个结局。然而，
random - 无法创建抽象类的实例(随机)
我正在尝试学习 Kotlin，所以我正在学习互联网上的教程，其中讲师编写了一个与他们配合良好的代码，但它给我带来了错误。这是错误 Error:(26, 17) Kotlin: Cannot crea
java - 随机/随机比较器
是否有任何方法可以模拟 Collections.shuffle 的行为，而不使比较器容易受到排序算法实现的影响，从而保证结果的安全？我的意思是不违反类似的契约(Contract)等.. 最佳答案在
Lua:随机:百分比
我正在创建一个游戏，目前必须处理一些math.random问题。我的Lua能力不是那么强，你觉得怎么样您能制定一个使用 math.random 和给定百分比的算法吗？我的意思是这样的函数: fu
java - 如何在JavaFX场景中定位按钮？ (随机)
我想以某种方式让按钮在按下按钮时随机改变位置。我有一个想法如何解决这个问题，其中一个我在下面突出显示，但我已经认为这不是我需要的。 import javafx.application.Applicat
java - 随机#猜谜游戏无限循环
对于我的 Java 类(class)，我应该制作一个随机猜数字游戏。我一直陷入过去几天创建的循环中。程序的输出总是无限循环，我不明白为什么。非常感谢任何帮助。 /* This program wi
java - 随机(？)ElementNotVisibleException
我已经查看了涉及该主题的一些其他问题，但我没有在任何地方看到这个特定问题。我有一个点击 Web 元素的测试。我尝试通过 ID 和 XPath 引用它，并使用 wait.until() 等待它变得可见。
c# - 随机 InvalidCastException
我在具有自定义类的字典和列表中遇到了该异常。示例: List dsa = (List)Session["Display"]; 当我使用 Session 时，转换工作了 10-20 次..然后它开始抛
javascript - 数字游戏 - 随机
需要帮助以了解如何执行以下操作: 每隔 2 秒，这两个数字将生成包含从 1 到 3 的整数值的随机数。按下“匹配”按钮后，如果两个数字相同，则绿色标签上的数字增加 1。按下“匹配”按钮后，如果两个
C 随机，有问题
void getS(char *fileName){ FILE *src; if((src = fopen(fileName, "r")) == NULL){ prin
PHP MySQL 随机
如果我有 2 个具有以下字段的 MySQL 数据库... RequestDB: - Username - Category DisplayDB: - Username - Category
postgresql 随机()错误？
我有以下语句 select random() * 999 + 111 from generate_series(1,10) 结果是: 690,046183290426 983,732229881454
php - 随机标签不会消失
我有一个使用 3x4 CSS 网格构建的简单网站。但出于某种原因，当我在 chrome“检查”中检查页面时，有一个奇怪的空白显然不在我的代码中的标签。它会导致网站上出现额外的一行，从而导致出现
javascript动画后不透明度有时会(随机)改变
我有两个动画，一个是“过渡”，它在悬停时缩小图像，另一个是 animation2，其中图像的不透明度以周期性间隔重复变化。我有 animation2 在图像上进行，当我将鼠标悬停在它上面时，anim
c++ - 解释这个c++随机
如图所示post在 C++ 中有几种生成随机 float 的方法。但是我不完全理解答案的第三个选项: float r3 = LO + static_cast (rand()) /( static_c
javascript - 随机.addClass到多个div而不重复
我正在尝试将类添加到具有相同类的三个 div，但我不希望任何被添加的类重复。我有一个脚本可以将一个类添加到同时显示的 1、2 或 3 个 div。期望的效果是将图像显示为背景图像，并且在我的样式表中
python - 嵌套列表中的唯一值 - 随机
我有一个基本上可以工作的程序，它创建由用户设置的大小的嵌套列表，并根据用户输入重复。但是，我希望各个集合仅包含唯一值，目前这是我的输出。 > python3 testv.py Size of you
C# 随机(长)
我正在尝试基于 C# 中的种子生成一个数字。唯一的问题是种子太大而不能成为 int32。有什么方法可以像种子一样使用 long 吗？是的，种子必须很长。最佳答案这是我移植的 Java.Util.
c - 随机 float
我写这个函数是为了得到一个介于 0 .. 1 之间的伪随机 float : float randomFloat() { float r = (float)rand()/(float)RAN

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - 为什么 R 中不同的随机森林实现会产生不同的结果？