r - 导出带有用于预测的最少信息的插入符号 R 模型-6ren

r - 导出带有用于预测的最少信息的插入符号 R 模型

转载作者：行者123 更新时间：2023-12-01 01:47:17

24

4

我想导出以下模型，以便其他用户可以打开它并使用 predict函数来预测新观察的类别。这是它唯一的用途。我可以保存 mod_fit，但它会占用大量空间，最终用户可以访问我不想要的信息。有什么简便的方法吗？

library(caret)
library(dplyr)

iris2 <- iris %>% filter(Species != "setosa") %>% mutate(Species = as.character(Species))
mod_fit <- train(Species ~., data = iris2, method = "glm")

最佳答案

以下是从目标使用可能不需要的数据中修剪 R 对象的通用过程。它本质上是启发式的，但我已经成功地应用了它两次，运气好的话它运行得很好。

您可以使用名为 object.size 的函数来测量对象大小:

> object.size(mod_fit)
528616 bytes

确实，对于具有四个预测变量的线性模型来说，相当多。例如，您可以使用 str 函数检查对象内部的内容:

> str(mod_fit)
List of 23
 $ method      : chr "glm"
 $ modelInfo   :List of 15
  ..$ label     : chr "Generalized Linear Model"
  ..$ library   : NULL
  ..$ loop      : NULL
  ..$ type      : chr [1:2] "Regression" "Classification"
  ..$ parameters:'data.frame':  1 obs. of  3 variables:
  .. ..$ parameter: Factor w/ 1 level "parameter": 1
  .. ..$ class    : Factor w/ 1 level "character": 1
[…]
 $ coefnames   : chr [1:4] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width"
 $ xlevels     : Named list()
 - attr(*, "class")= chr [1:2] "train" "train.formula"

相当多的数据。因此，让我们检查每个元素占用多少空间:

> sort(sapply(mod_fit, object.size))
        pred   preProcess      yLimits         dots     maximize       method 
           0            0            0           40           48           96 
   modelType       metric    perfNames      xlevels    coefnames       levels 
         104          104          160          192          296          328 
        call     bestTune      results        times     resample  resampledCM 
         936         1104         1584         2024         2912         4152 
trainingData        terms      control    modelInfo   finalModel 
        5256         6112        29864       211824       259456

现在我们可以尝试从这个对象中一个一个地删除元素，并从最大的开始检查哪些元素是 predict 工作所必需的:

> test_obj <- mod_fit; test_obj$finalModel <- NULL; predict(test_obj, iris2)
Error in if (modelFit$problemType == "Classification") { : 
  argument is of length zero

哎呀， finalModel 似乎很重要。这里的任何类型的错误都会告诉您无法删除该元素。比如说 control 怎么样？

> test_obj <- mod_fit; test_obj$control <- NULL; predict(test_obj, iris2)
  [1] versicolor versicolor versicolor versicolor versicolor versicolor
  [7] versicolor versicolor versicolor versicolor versicolor versicolor
 [13] versicolor versicolor versicolor versicolor versicolor versicolor
[…]
 [97] virginica  virginica  virginica  virginica 
Levels: versicolor virginica

因此，似乎不需要 control。您可以递归地执行此过程，例如:

> sort(sapply(mod_fit$finalModel, object.size))
           offset         contrasts             param              rank 
                0                 0                40                48 
[…]
            model            family 
            17056            163936 
> sort(sapply(mod_fit$finalModel$family, object.size))
      link     family   valideta    linkfun    linkinv     mu.eta dev.resids 
        96        104        272        560        560        560       1992 
  variance    validmu initialize        aic   simulate 
      2064       6344      18712      27512     103888 
> test_obj <- mod_fit; test_obj$finalModel$family$simulate <- NULL; predict(test_obj, iris2)
  [1] versicolor versicolor versicolor versicolor versicolor versicolor
[…]
 [97] virginica  virginica  virginica  virginica 
Levels: versicolor virginica

通过足够的尝试，您将知道对象的哪些部分是必要的，哪些不是——并在存储模型之前删除它们。

注意:虽然这可能会减少对象的不必要部分，但您可能会意外删除仅有时用于预测的部分。但是，对于始终以相同方式工作的简单模型，例如 glm ，这不应该发生。

此外，不保证此过程的结果不会泄露您不希望模型用户看到的模型信息。一般没有这样的保证，有 reconstructing significant information about models and training data even from black-box models that are not usually easy to interpret 的方法。

关于r - 导出带有用于预测的最少信息的插入符号 R 模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47633350/

24

4

0

文章推荐： python - sklearn KNeighborsClassifier 评分方法如何工作？

文章推荐： python - 正则表达式:匹配后获取所有内容

文章推荐： javascript - jQuery append 功能和调整大小

文章推荐： python - 在 numpy 中向量化基于索引的矩阵运算

powershell - Powershell-导出-CSV外循环，仅最后一行被打印/导出
是否可以调整此代码以导出foreach循环外的所有行: 这工作正常(内部循环): $vms = Get-VM | Where { $_.State –eq ‘Running’ } | Select-
webpack - 导出 webpack 包/前置模块。导出？避免节点中的空对象？
我试图将我的 bundle.js 引入我的 Node 服务器，但显然 webpack 包在顶部的所有包代码之前缺少一个 module.exports =。我可以手动将 module.exports
Android库项目——导出
我有一个 android 项目，其中包含一个库项目。在这个库项目中，我包含了许多可绘制对象和动画。问题是，当我将主项目导出为 .apk 时，它包括所有可绘制对象和动画，甚至是主项目中未使用的对象。
导出/导入后Mysql时间卡住
我的一个 mysql 用户以这种方式耗尽了他的生产数据库: 他将所有数据导出到转储文件，然后删除所有内容，然后将数据导入回数据库。他从 Innodb 大表空间中保存了一些 Gig(我不知道他为什么这样
Pimcore 导入/导出
我正在 pimcore 中创建一个新站点。有没有办法导出/导入 pimcore 站点的完整数据，以便我可以导出 xml/csv 格式的 pimcore 数据进行必要的更改，然后将其导入回来？最佳答案
静态函数的 DLL 导出
我有以下静态函数: static inline HandVal StdDeck_StdRules_EVAL_N( StdDeck_CardMask cards, int n
找不到 TypeScript 导出
因为我更新了 angular cli 和 nestjs 版本，所以我收到了数百条警告，提示我无法找到我的自定义类型定义和接口(interface)。但是我的nestjs api仍然可以正常工作。我正
Eclipse - 导出/保存搜索结果
Eclipse 的搜索结果 View 以其树状结构非常方便。有没有办法将这些结果导出为可读的文本格式或将它们保存到文件中以备后用？我试过使用复制和粘贴，但生成的文本格式远不可读。最佳答案不，我认
javascript - 我如何在React中选择导入/导出
我想在用户在 Chrome 中打开页面时使用 WebP否则它应该是 png。我找到了这段代码: var isChrome = !!window.chrome && !!window.chrome.w
azure - 用户上次登录 - 导出
您好，我正在尝试根据“上次登录”导出 AD 用户列表我已经使用基本 powershell 编写了脚本，但是如果有人可以使用“AzureAD 到 Powershell” 命令找到解决方案，我会很感兴趣
amcharts - 导出 AM 股票图表
有没有办法启用 Stockchart 的导出？我知道这对于普通图表是可行的，但对于股票图表，当尝试启用导出模式时，我得到了未定义，我尝试过:chart.export.enabled=true;和ch
Magento 订单导入/导出
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
Oracle 使用命令行导入/导出
我正在尝试学习如何使用命令行将数据导入/导出到 Oracle。根据我的发现，看起来我应该使用 sqlldr.exe 文件来导入和导出，但我不确定除了 userid 之外还需要什么参数。谁能给我解释一下
azure - 用户上次登录 - 导出
您好，我正在尝试根据“上次登录”导出 AD 用户列表我已经使用基本 powershell 编写了脚本，但是如果有人可以使用“AzureAD 到 Powershell” 命令找到解决方案，我会很感兴趣
Django pdf 导出
我想生成一个 PDF，它将以表格格式显示查询集的输出，例如: query = ModelA.objects.filter(p_id=100) class ModelA(models.Model):
Java2Word 导出，单独格式化表格单元格
我有一个数据库代理，可以从 IBM Notes 数据生成 Word 文档。我正在使用 Java2Word API 来实现此目的，但不幸的是，该 API 几乎没有文档，而且我找不到任何有关表格格式(大小
Java 导出 - 文本文件
我尝试将 Java 程序从 Eclipse 导出到 .jar 文件，但遇到了问题。它运行良好，但由于某种原因它没有找到它应该从中获取数据的文本文件。如果有人能帮忙解决这个问题，我将非常感激。最佳答案
Oracle 使用命令行导入/导出
我正在尝试学习如何使用命令行将数据导入/导出到 Oracle。根据我的发现，看起来我应该使用 sqlldr.exe 文件来导入和导出，但我不确定除了 userid 之外还需要什么参数。谁能给我解释一下
clang - 在Web程序集中生成内存和表导入/导出
使用LLVM / Clang编译到WebAssembly的默认代码生成将导出内存，并完全忽略表。使用clang（--target=wasm32-unknown-unknown-wasm）定位Web组
Oracle DDL 导出
我正在尝试在 HSQL 数据库中重新创建一个 oracle 数据库。这是为了在本地开发人员系统上进行更好的单元测试。我需要知道的是，是否有任何我可以在 oracle 服务器/客户端中使用的工具/命

首页

博学

6Ren·AI

商城

r - 导出带有用于预测的最少信息的插入符号 R 模型