使用 tidymodels 运行多个回归模型-6ren

使用 tidymodels 运行多个回归模型

转载作者：行者123 更新时间：2023-12-04 11:35:37

25

4

我最近一直在使用 tidymodels 来运行模型并选择最能满足某些目标函数的参数。例如对 mtcars 数据使用假设回归 ( using the regression examples from the bottom answer of this question as an example )

library(tidymodels)
library(tidyverse)

#some regression model
cars_recipe <- recipe(mpg ~ disp + drat, data = mtcars)

wf <- workflow() %>%
  add_recipe(cars_recipe)

(粗略地使用来自 this blog post 的语法进行比较；在本示例中，为了清晰起见，我没有执行诸如拆分测试/训练之类的各种步骤)
然后，我可以运行许多模型并从这些模型中获取指标(在这种情况下，针对某些弹性网络的各种惩罚)

#run over a parameter space and find metrics as an objective
mtcars_bootstrap <- bootstraps(mtcars)

tune_spec <- linear_reg(penalty = tune(), mixture = 1) %>%
  set_engine("glmnet")

lambda_grid <- grid_regular(penalty(), levels = 50)

lasso_grid <- tune_grid(
  wf %>% add_model(tune_spec),
  resamples = mtcars_bootstrap,
  grid = lambda_grid
)

但是可以说我有充分的理由认为有两个单独的模型可以最好地捕捉(例如)汽车 mpg 的影响，所以我创建了第二个模型作为配方

cars_recipe2 <- recipe(mpg ~ I(disp + drat), data = mtcars)

现在我也可以使用 lapply 或 purrr 系列函数通过上述管道运行这个配方，但是，我想知道是否有一些内置方法可以通过 tidymodels 运行多个配方？
似乎应该有，但我也认为它可能被设计排除以防止 p-hacking

最佳答案

我们正在开发一个名为 workflowsets 的实验包来做到这一点。 .如果你准备尝试一个新的、仍在开发中的包，你现在可以从 GitHub 安装它:

devtools::install_github("tidymodels/workflowsets")

然后你可以设置这样的分析:

library(tidymodels)
library(workflowsets)

mtcars_boot <- bootstraps(mtcars)

rec1 <- recipe(mpg ~ disp + drat, data = mtcars)
rec2 <- recipe(mpg ~ disp + drat, data = mtcars) %>%
  step_log(disp) %>%
  step_normalize(disp, drat)

lasso_spec <- linear_reg(penalty = tune(), mixture = 1) %>%
  set_engine("glmnet")

# put it all together in a "workflow set"
car_models <- 
  workflow_set(
    preproc = list(simple = rec1, preproc = rec2),
    models = list(lasso = lasso_spec),
    cross = TRUE
  )
car_models
#> # A workflow set/tibble: 2 x 4
#>   wflow_id      info             option    result    
#>   <chr>         <list>           <list>    <list>    
#> 1 simple_lasso  <tibble [1 × 4]> <opts[0]> <list [0]>
#> 2 preproc_lasso <tibble [1 × 4]> <opts[0]> <list [0]>

现在您有了一个工作流集，您可以使用“映射”它，在本例中为 tune_grid()以及您想要使用的其他参数，如重新采样和网格。

lambda_grid <- grid_regular(penalty(range = c(-2, 0)), levels = 10)

car_res <- car_models %>%
  workflow_map("tune_grid", resamples = mtcars_boot, 
               grid = lambda_grid, verbose = TRUE)
#> i 1 of 2 tuning:     simple_lasso
#> ✓ 1 of 2 tuning:     simple_lasso (7.7s)
#> i 2 of 2 tuning:     preproc_lasso
#> ✓ 2 of 2 tuning:     preproc_lasso (8.4s)

## some autoplot methods are available
autoplot(car_res)

创建于 2021-02-09 由 reprex package (v1.0.0)
这是在进行中，所以如果你有很高的稳定性需求，我会等几个月才能使用它。不过，我们对它如何能够满足人们的需求感到兴奋!

关于使用 tidymodels 运行多个回归模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66117523/

25

4

0

文章推荐： java - GraphQL 联盟 : Is there a Java Springboot gateway

文章推荐： r - 如何在 igraph + R 中保持节点的位置

文章推荐： elasticsearch - Kibana 索引模式未保存

r - Tidymodels:如何从训练数据中获得额外的重要性
我有以下代码，我在其中对不同的 mtry 和 min_n 进行了一些网格搜索。我知道如何提取精度最高的参数(参见第二个代码框)。如何提取训练数据集中每个特征的重要性？我在网上找到的指南显示了如何使用“
r - tidymodels 列中发现的新级别
我正在使用 tidymodels创建随机森林预测。我的测试数据包含训练数据中不存在的新因子水平，这会导致错误: 1: Novel levels found in column 'Siblings':
使用 tidymodels 运行多个回归模型
我最近一直在使用 tidymodels 来运行模型并选择最能满足某些目标函数的参数。例如对 mtcars 数据使用假设回归 ( using the regression examples from t
r - Tidymodels 逻辑回归获取系数和标准误差
有没有办法在 tidy 模型中获取逻辑回归的标准误差和 p 值？我可以通过下面的代码获得系数..但我想计算每个特征的优势比，我还需要标准误差.. glm.fit % set_engine(eng
r - tidymodels:具有交叉验证的游侠
数据集可以在这里找到: https://www.kaggle.com/mlg-ulb/creditcardfraud 我正在尝试使用 tidymodels 在此数据集上运行具有 5 折交叉验证的游侠。
R tidymodels/VIP变量重要性确定
通过 tidymodels 和 R 中的 vip 包，我计算了变量重要性。就代码而言，它看起来像这样: rf_vi_fit %>% pull_workflow_fit() %>% vip(geom =
r - 如何将经过训练和测试的随机森林模型应用于 tidymodels 中的新数据集？
我使用 tidymodels 在 R 中训练和测试了一个随机森林模型。现在我想使用相同的模型来预测一个全新的数据集(不是训练数据集)。例如 Julia silge，在这篇博文中解释了训练、测试和评估
r - Tidymodels - 使用工作流/配方获取训练数据的预测和指标
下面的代码工作正常，没有我所知道的错误，但我想添加更多内容。我想补充的两件事是: 1 - 模型对训练数据对最终图的预测。我想在适合训练数据的模型上运行 collect_predictions()。
r - 使用 tidymodels 调整工作流集时如何正确设置参数网格？
我尝试使用 tidymodels 来调整配方和模型参数的工作流程。调整单个工作流时没有问题。但是当使用多个工作流调整工作流集时，它总是失败。这是我的代码: # read the training da
r - 使用嵌套重采样使用 tidymodel 调整岭回归
我想使用 tidymodels 调整岭回归.我看过这个 nested sampling tutorial ，但不确定如何将调整从一个超参数增加到两个。请看下面的例子: 示例数据: library("m
r - 从 tidymodels 绘制决策树结果
我已经设法使用 tidymodels 构建了一个决策树模型。包，但我不确定如何提取结果并绘制树。我知道我可以使用 rpart和 rpart.plot包来实现同样的事情，但我宁愿使用 tidymodel
r - 使用 tidymodels 配方包添加缺失的指标列
我想使用 recipes 创建一个食谱该软件包既可以估算缺失的数据，又可以添加指示哪些值缺失的指标列。如果有一个选项可以选择为原始数据框中的每一列包含一个指标列，或者只包含原始数据框中缺少数据的列的指
r - 将 Tidymodels 进程映射到列表/分组依据或嵌套
我真的很喜欢 tidymodels，但我不清楚我如何才能将该模型工作流适合嵌套分组依据之类的东西。例如，tidyr 在 mtcars 的圆柱体之类的东西上勾勒出一个简单的嵌套，然后为每个圆柱体拟合一个
r - 如何保存 Tidymodels Lightgbm 模型以供重用
我有以下代码用于使用 lightgbm 模型创建 tidymodels 工作流。但是，当我尝试保存到 .rds 对象并进行预测时出现了一些问题 library(AmesHousing) library
r - 如何使用 R tidymodels 工作流程在没有截距的情况下拟合模型？
如何使用此 tidymodels 工作流程拟合模型？ library(tidymodels) workflow() %>% add_model(linear_reg() %>% set_engin
r - 在 tidymodels recipes::recipe() 中创建一个多元矩阵
我正在尝试对一个模型进行 k 折交叉验证，该模型根据卫星图像预测树种断面积比例的联合分布。这需要使用 DiricihletReg::DirichReg() 函数，这反过来又需要使用 Dirichlet
r - 如何使用 Tidymodels 获取 PCA 累积比例？
我可以在经典 Iris 数据集上应用 PCA 以获得每个维度的累积比例: library(tidyverse) x % as.matrix() pca % select(-Species) iris_
r - 使用 purrr 来拟合许多使用 tidymodels 的模型
仍然习惯于 stackoverflow，所以如果发布不正确，我们深表歉意。最近，我发现自己不得不运行许多预测变量略有不同的模型来衡量模型性能(我确信有一种更优雅的方法可以做到这一点)，我正在考虑创建
r - Tidymodels:仅当概率为 75% 或更高时才分类为 TRUE
我有一个二元分类问题，使用了随机森林和逻辑回归。根据 conf_mat、collect_metrics() 和 collect_predictions 的结果，我想更改我的模型，仅当模型“确定”时才分
r - 调整 LASSO 模型并使用 tidymodels 进行预测
我想对 LASSO 算法执行惩罚选择并使用 tidymodels 预测结果.我将使用波士顿住房数据集来说明这个问题。 library(tidymodels) library(tidyverse) li

首页

博学

6Ren·AI

商城

使用 tidymodels 运行多个回归模型