r - Tidymodels - 使用工作流/配方获取训练数据的预测和指标-6ren

r - Tidymodels - 使用工作流/配方获取训练数据的预测和指标

转载作者：行者123 更新时间：2023-12-05 01:28:58

30

4

下面的代码工作正常，没有我所知道的错误，但我想添加更多内容。

我想补充的两件事是:

1 - 模型对训练数据对最终图的预测。我想在适合训练数据的模型上运行 collect_predictions()。

2 - 用于查看训练数据模型指标的代码。我想在适合训练数据的模型上运行 collect_metrics()。

我如何获得这些信息？

# Setup
library(tidyverse)
library(tidymodels)

parks <- readr::read_csv('https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2021/2021-06-22/parks.csv')

modeling_df <- parks %>% 
  select(pct_near_park_data, spend_per_resident_data, med_park_size_data) %>% 
  rename(nearness = "pct_near_park_data",
         spending = "spend_per_resident_data",
         acres = "med_park_size_data") %>% 
  mutate(nearness = (parse_number(nearness)/100)) %>% 
  mutate(spending = parse_number(spending))

# Start building models
set.seed(123)
park_split <- initial_split(modeling_df)
park_train <- training(park_split)
park_test <- testing(park_split)

tree_rec <- recipe(nearness ~., data = park_train)
tree_prep <- prep(tree_rec)
juiced <- juice(tree_prep)

tune_spec <- rand_forest(
  mtry = tune(),
  trees = 1000,
  min_n = tune()
) %>% 
  set_mode("regression") %>% 
  set_engine("ranger")

tune_wf <- workflow() %>% 
  add_recipe(tree_rec) %>% 
  add_model(tune_spec)

set.seed(234)
park_folds <- vfold_cv(park_train)

# Make a grid of various different models
doParallel::registerDoParallel()

set.seed(345)
tune_res <- tune_grid(
  tune_wf,
  resamples = park_folds,
  grid = 20,
 control = control_grid(verbose = TRUE)
)

best_rmse <- select_best(tune_res, "rmse")

# Finalize a model with the best grid
final_rf <- finalize_model(
  tune_spec,
  best_rmse
)

final_wf <- workflow() %>% 
  add_recipe(tree_rec) %>% 
  add_model(final_rf)

final_res <- final_wf %>% 
  last_fit(park_split)

# Visualize the performance
# My issue here is that this is only the testing data
# How can I also get this model's performance on the training data?
# I want to plot both with a facetwrap or color indication as well as numerically see the difference with collect_metrics

final_res %>% 
  collect_predictions() %>% 
  ggplot(aes(nearness, .pred)) +
    geom_point() +
    geom_abline()

最佳答案

您可以做的是从 final_res 中提取经过训练的 workflow 对象，并使用它来创建对训练数据集的预测。

final_model <- final_res$.workflow[[1]]

现在您可以在测试和训练数据集上使用 augment() 来可视化性能。

final_model %>% 
  augment(new_data = park_test) %>%
  ggplot(aes(nearness, .pred)) +
  geom_point() +
  geom_abline()

final_model %>% 
  augment(new_data = park_train) %>%
  ggplot(aes(nearness, .pred)) +
  geom_point() +
  geom_abline()

您还可以将结果与 bind_rows() 合并，这样您就可以更轻松地进行比较。

all_predictions <- bind_rows(
  augment(final_model, new_data = park_train) %>% 
    mutate(type = "train"),
  augment(final_model, new_data = park_test) %>% 
    mutate(type = "test")
)

all_predictions %>%
  ggplot(aes(nearness, .pred)) +
  geom_point() +
  geom_abline() +
  facet_wrap(~type)

所有 yardstick 度量函数也适用于分组数据帧。


all_predictions %>%
  group_by(type) %>%
  metrics(nearness, .pred)
#> # A tibble: 6 x 4
#>   type  .metric .estimator .estimate
#>   <chr> <chr>   <chr>          <dbl>
#> 1 test  rmse    standard      0.0985
#> 2 train rmse    standard      0.0473
#> 3 test  rsq     standard      0.725 
#> 4 train rsq     standard      0.943 
#> 5 test  mae     standard      0.0706
#> 6 train mae     standard      0.0350

^{由 reprex package 创建于 2021-06-24 (v2.0.0)}

关于r - Tidymodels - 使用工作流/配方获取训练数据的预测和指标，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/68124804/

30

4

0

文章推荐： node.js - 如何在 Heroku 上将 http2 与 Node 一起使用(使用 Koa)

文章推荐： flutter - 在 WebView 中禁用深色模式

文章推荐： spring-boot - 协程解决之前的响应，kotlin

R 预测 - 如何仅绘制子集？
我正在使用 R 预测包拟合模型，如下所示: fit <- auto.arima(df) plot(forecast(fit,h=200)) 打印原始数据框和预测。当 df 相当大时，这
r - 预测-回归的神经网络预测相同的值
我正在尝试预测自有住房的中位数，这是一个行之有效的例子，给出了很好的结果。 https://heuristically.wordpress.com/2011/11/17/using-neural-ne
r - 预测()函数的类型参数
type="class"函数中的type="response"和predict有什么区别？例如： predict(modelName, newdata=testData, type = "class
python - 如何以图像的形式保存CNN模型的输出(预测)？
我有一个名为 Downloaded 的文件夹，其中包含经过训练的 CNN 模型必须对其进行预测的图像。下面是导入图片的代码: import os images = [] for filename i
区间内的 R 预测
关于预测的快速问题。我尝试预测的值是 0 或 1(它设置为数字，而不是因子)，因此当我运行随机森林时: fit , data=trainData, ntree=50) 并预测: pred, data
python - 预测，(找到正确的模型)
使用 Python，我尝试使用历史销售数据来预测产品的 future 销售数量。我还试图预测各组产品的这些计数。例如，我的专栏如下所示: Date Sales_count Department It
R SVM 预测
我是 R 新手，所以请帮助我了解问题所在。我试图预测一些数据，但预测函数返回的对象(这是奇怪的类(因子))包含低数据。测试集大小为 5886 obs。 160 个变量，当预测对象长度为 110 时..
java - 预测/识别电话号码的国家代码
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
python - 您如何从训练有素的网络对给定输入进行预测(预测)？
下面是我的神经网络代码，有 3 个输入和 1 个隐藏层和 1 个输出: #Data ds = SupervisedDataSet(3,1) myfile = open('my_file.csv','r
php - 预测/纠正全文搜索
我正在开发一个 Web 应用程序，它具有全文搜索功能，可以正常运行。我想对此进行改进并向其添加预测/更正功能，这意味着如果用户输入错误或结果为 0，则会查询该输入的更正版本，而不是查询结果。基本上类似
python - 具有单一分类特征的 LSTM 预测
我对时间序列还很陌生。这是我正在处理的数据集: Date Price Location 0 2012-01-01 1771.0
sequence - 如何使用隐马尔可夫模型进行 future 预测
我有许多可变长度的序列。对于这些，我想训练一个隐马尔可夫模型，稍后我想用它来预测(部分)序列的可能延续。到目前为止，我已经找到了两种使用 HMM 预测 future 的方法: 1) 幻觉延续并获得该延
映射到标签的 Tensorflow Serving 预测
我正在使用 TensorFlow 服务提供初始模型。我在 Azure Kubernetes 上这样做，所以不是通过更标准和有据可查的谷歌云。无论如何，这一切都在起作用，但是我感到困惑的是预测作为浮点
r - AWS 预测。项目数量的观察值太少
我正在尝试使用 Amazon Forecast 进行一些测试。我现在尝试了两个不同的数据集，它们看起来像这样: 13,2013-03-31 19:25:00,93.10999 14,2013-03-3
python - 预测 ufunc 输出的内存布局
使用 numpy ndarray大多数时候我们不需要担心内存布局的问题，因为结果并不依赖于它。除非他们这样做。例如，考虑这种设置 3x2 矩阵对角线的稍微过度设计的方法 >>> a = np.zer
R:如何在同一时间序列上绘制多个 ARIMA 预测
我想在同一个地 block 上用不同颜色绘制多个预测，但是，比例尺不对。我对任何其他方法持开放态度。可重现的例子: require(forecast) # MAKING DATA data
r - 通过分类变量和连续变量的交互可视化 GLMM 预测
我正在 R 中使用 GLMM，其中混合了连续变量和 calcategories 变量，并具有一些交互作用。我使用 MuMIn 中的 dredge 和 model.avg 函数来获取每个变量的效果估计。
output - 在命令行中导出 Weka 预测
我能够在 GUI 中成功导出分类器错误，但无法在命令行中执行此操作。有什么办法可以在命令行上完成此操作吗？我使用的是 Weka 3.6.x。在这里，您可以右键单击模型，选择“可视化分类器错误”并从那
R:如何在同一时间序列上绘制多个 ARIMA 预测
我想在同一个地 block 上用不同颜色绘制多个预测，但是，比例尺不对。我对任何其他方法持开放态度。可重现的例子: require(forecast) # MAKING DATA data
r - 预测 R 中的内存使用情况
我从 UCI 机器学习数据集库下载了一个巨大的文件。 (~300mb)。有没有办法在将数据集加载到 R 内存之前预测加载数据集所需的内存？ Google 搜索了很多，但我到处都能找到如何使用 R-p

首页

博学

6Ren·AI

商城

r - Tidymodels - 使用工作流/配方获取训练数据的预测和指标