r - H2O:无法通过 `h2o.loadModel` 从磁盘读取大型模型-6ren

r - H2O:无法通过 `h2o.loadModel` 从磁盘读取大型模型

转载作者：太空宇宙更新时间：2023-11-04 12:25:52

更新于 2017 年 6 月 28 日，如下，以回应@Michal Kurka。
2017 年 6 月 26 日更新，如下。

我无法加载以原生 H2O 格式(即十六进制)保存的大型 GBM 模型。

H2O v3.10.5.1
R v3.3.2
Linux 3.10.0-327.el7.x86_64 GNU/Linux

我的目标是最终将这个模型保存为 MOJO。

这个模型太大了，我不得不用最小/最大内存 100G/200G 初始化 H2O，然后 H2O 的模型训练才能成功运行。

这就是我训练 GBM 模型的方式:

localH2O <- h2o.init(ip = 'localhost', port = port, nthreads = -1,
                     min_mem_size = '100G', max_mem_size = '200G')

iret <- h2o.gbm(x = predictors, y = response, training_frame = train.hex,
                validation_frame = holdout.hex, distribution="multinomial",
                ntrees = 3000, learn_rate = 0.01, max_depth = 5, nbins = numCats,
                model_id = basename_model)

gbm <- h2o.getModel(basename_model)
oPath <- h2o.saveModel(gbm, path = './', force = TRUE)

训练数据包含 1413 列的 81,886 条记录。在这些列中，有 19 个是因子。这些列中的绝大多数是 0/1。

$ wc -l training/*.txt
     81887 training/train.txt
     27294 training/holdout.txt

这是写入磁盘的保存模型:

$ ls -l

total 37G
-rw-rw-r-- 1 bfo7328 37G Jun 22 19:57 my_model.hex

这就是我尝试使用相同的大内存分配值 100G/200G 从磁盘读取模型的方式:

$ R

R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch"
Copyright (C) 2016 The R Foundation for Statistical Computing
Platform: x86_64-redhat-linux-gnu (64-bit)

> library(h2o)
> localH2O=h2o.init(ip='localhost', port=65432, nthreads=-1,
                  min_mem_size='100G', max_mem_size='200G')

H2O is not running yet, starting it now...

Note:  In case of errors look at the following log files:
    /tmp/RtmpVSwxXR/h2o_bfo7328_started_from_r.out
    /tmp/RtmpVSwxXR/h2o_bfo7328_started_from_r.err

openjdk version "1.8.0_121"
OpenJDK Runtime Environment (build 1.8.0_121-b13)
OpenJDK 64-Bit Server VM (build 25.121-b13, mixed mode)

Starting H2O JVM and connecting: .. Connection successful!

R is connected to the H2O cluster: 
    H2O cluster uptime:         3 seconds 550 milliseconds 
    H2O cluster version:        3.10.5.1 
    H2O cluster version age:    13 days  
    H2O cluster name:           H2O_started_from_R_bfo7328_kmt050 
    H2O cluster total nodes:    1 
    H2O cluster total memory:   177.78 GB 
    H2O cluster total cores:    64 
    H2O cluster allowed cores:  64 
    H2O cluster healthy:        TRUE 
    H2O Connection ip:          localhost 
    H2O Connection port:        65432 
    H2O Connection proxy:       NA 
    H2O Internal Security:      FALSE 
    R Version:                  R version 3.3.2 (2016-10-31)

来自 /tmp/RtmpVSwxXR/h2o_bfo7328_started_from_r.out :

INFO: Processed H2O arguments: [-name, H2O_started_from_R_bfo7328_kmt050, -ip, localhost, -port, 65432, -ice_root, /tmp/RtmpVSwxXR]
INFO: Java availableProcessors: 64
INFO: Java heap totalMemory: 95.83 GB
INFO: Java heap maxMemory: 177.78 GB
INFO: Java version: Java 1.8.0_121 (from Oracle Corporation)
INFO: JVM launch parameters: [-Xms100G, -Xmx200G, -ea]
INFO: OS version: Linux 3.10.0-327.el7.x86_64 (amd64)
INFO: Machine physical memory: 1.476 TB

我调用 h2o.loadModel :

if ( TRUE ) {
  now <- format(Sys.time(), "%a %b %d %Y %X")
  cat( sprintf( 'Begin %s\n', now ))

  model_filename <- './my_model.hex'
  in_model.hex <- h2o.loadModel( model_filename )

  now <- format(Sys.time(), "%a %b %d %Y %X")
  cat( sprintf( 'End   %s\n', now ))
}

来自 /tmp/RtmpVSwxXR/h2o_bfo7328_started_from_r.out :

INFO: GET /, parms: {}
INFO: GET /, parms: {}
INFO: GET /, parms: {}
INFO: GET /3/InitID, parms: {}
INFO: Locking cloud to new members, because water.api.schemas3.InitIDV3
INFO: POST /99/Models.bin/, parms: {dir=./my_model.hex}

等待一个小时后，我看到这些“内存不足”(OOM) 错误消息:

INFO: POST /99/Models.bin/, parms: {dir=./my_model.hex}
#e Thread WARN: Swapping!  GC CALLBACK, (K/V:24.86 GB + POJO:112.01 GB + FREE:40.90 GB == MEM_MAX:177.78 GB), desiredKV=22.22 GB OOM!
#e Thread WARN: Swapping!  GC CALLBACK, (K/V:26.31 GB + POJO:118.41 GB + FREE:33.06 GB == MEM_MAX:177.78 GB), desiredKV=22.22 GB OOM!
#e Thread WARN: Swapping!  GC CALLBACK, (K/V:27.36 GB + POJO:123.03 GB + FREE:27.39 GB == MEM_MAX:177.78 GB), desiredKV=22.22 GB OOM!
#e Thread WARN: Swapping!  GC CALLBACK, (K/V:28.21 GB + POJO:126.73 GB + FREE:22.83 GB == MEM_MAX:177.78 GB), desiredKV=22.22 GB OOM!

我不希望需要这么多内存来从磁盘读取模型。

如何将此模型从磁盘读入内存。一旦我这样做了，我可以将它保存为 MOJO 吗？

更新 1:2017 年 6 月 26 日

我刚刚注意到 GBM 模型的磁盘大小在不同版本的 H2O 之间急剧增加:

H2O v3.10.2.1:
    -rw-rw-r-- 1 169M Jun 19 07:23 my_model.hex

H2O v3.10.5.1:
    -rw-rw-r-- 1  37G Jun 22 19:57 my_model.hex

有什么想法吗？这可能是问题的根源吗？

更新 2:2017 年 6 月 28 日，回应@Michal Kurka 的评论。

当我通过 fread 加载训练数据时，每列的类(类型)是正确的:* 24列为‘字符’；* 1389 列为“整数”(除一列外均为 0/1)；* 总共 1413 列。

然后我将 R-native 数据框转换为 H2O 数据框并手动分解 20 列:

train.hex <- as.h2o(df.train, destination_frame = "train.hex”)
length(factorThese)
[1] 20
train.hex[factorThese] <- as.factor(train.hex[factorThese])
str(train.hex)

str(train.hex) 输出的精简版，仅显示作为因子的那 19 列(1 个因子是响应列):

 - attr(*, "nrow")= int 81886
 - attr(*, "ncol")= int 1413
 - attr(*, "types")=List of 1413
  ..$ : chr "enum" : Factor w/ 72 levels
  ..$ : chr "enum" : Factor w/ 77 levels
  ..$ : chr "enum" : Factor w/ 51 levels
  ..$ : chr "enum" : Factor w/ 4226 levels
  ..$ : chr "enum" : Factor w/ 4183 levels
  ..$ : chr "enum" : Factor w/ 3854 levels
  ..$ : chr "enum" : Factor w/ 3194 levels
  ..$ : chr "enum" : Factor w/ 735 levels
  ..$ : chr "enum" : Factor w/ 133 levels
  ..$ : chr "enum" : Factor w/ 16 levels
  ..$ : chr "enum" : Factor w/ 25 levels
  ..$ : chr "enum" : Factor w/ 647 levels
  ..$ : chr "enum" : Factor w/ 715 levels
  ..$ : chr "enum" : Factor w/ 679 levels
  ..$ : chr "enum" : Factor w/ 477 levels
  ..$ : chr "enum" : Factor w/ 645 levels
  ..$ : chr "enum" : Factor w/ 719 levels
  ..$ : chr "enum" : Factor w/ 678 levels
  ..$ : chr "enum" : Factor w/ 478 levels

以上结果在 v3.10.2.1(较小模型写入磁盘:169M)和 v3.10.5.1(较大模型写入磁盘:37G)之间完全相同。

实际GBM训练使用nbins <- 37 :

numCats <- n_distinct(as.matrix(dplyr::select_(df.train,response)))
numCats
[1] 37

iret <- h2o.gbm(x = predictors, y = response, training_frame = train.hex,
          validation_frame = holdout.hex, distribution="multinomial",
          ntrees = 3000, learn_rate = 0.01, max_depth = 5, nbins = numCats,
          model_id = basename_model)

最佳答案

模型大小的差异(169M 与 37G)令人惊讶。您能否确保 H2O 将所有数字列识别为数字列而不是具有非常高基数的分类列？

您是使用自动检测列类型还是手动指定？

关于r - H2O:无法通过 `h2o.loadModel` 从磁盘读取大型模型，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44738743/

文章推荐： javascript - 单击提交按钮时无功能

文章推荐： java - SOUNDEX 无法使用 JPQL 与 JPA 配合使用

文章推荐： css - 响应页面不工作

文章推荐： c++ - 移植到 Linux 时调用 wopen

r - 计算 R 中的 R 平方内、R 平方之间或整体 R 平方
我正在从 Stata 迁移到 R(plm 包)，以便进行面板模型计量经济学。在 Stata 中，面板模型(例如随机效应)通常报告组内、组间和整体 R 平方。 I have found plm 随机效应
r - Revolution R 中的模块是开源的。 R 许可证是否意味着我可以免费使用随附的 R 软件包？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 6年前关闭。 Improve this qu
r - 如何从 R 中的用户输入中读取向量并将其用于进一步处理 [R]
我想要求用户输入整数值列表。用户可以输入单个值或一组多个值，如 1 2 3(spcae 或逗号分隔)然后使用输入的数据进行进一步计算。我正在使用下面的代码 EXP <- as.integer(rea
r - R 中的分类变量 - R 选择哪一个作为引用？
当 R 使用分类变量执行回归时，它实际上是虚拟编码。也就是说，省略了一个级别作为基础或引用，并且回归公式包括所有其他级别的虚拟变量。但是，R 选择了哪一个作为引用，以及我如何影响这个选择？具有四个级
r - 制作数据框或排名调整后的 R 平方 - R
这个问题基本上是我之前问过的问题的延伸:How to only print (adjusted) R-squared of regression model? 我想建立一个线性回归模型来预测具有 15
r - 将已安装的 R 包传输到另一台计算机上的 R
我在一台安装了多个软件包的 Linux 计算机上安装了 R。现在我正在另一台 Linux 计算机上设置 R。从他们的存储库安装 R 很容易，但我将不得不使用安装许多包 install.package
r - R 中字符的对象大小 - R 全局字符串池如何工作？
我正在阅读 Hadley 的高级 R 编程，当它讨论字符的内存大小时，它说: R has a global string pool. This means that each unique strin
r - 是否写入 "ui.R + server.R"或 "app.R"
我们可以将 Shiny 代码写在两个单独的文件中，"ui.R"和 "server.R" , 或者我们可以将两个模块写入一个文件 "app.R"并调用函数shinyApp() 这两种方法中的任何一种在性
r - 在 .R 文件中保存 R 对象(代码)(R 遗传编程)
我正在使用 R 通过 RGP 包进行遗传编程。环境创造了解决问题的功能。我想将这些函数保存在它们自己的 .R 源文件中。我这辈子都想不通怎么办。我尝试过的一种方法是: bf_str = print(b
r - 如何让 R 在编辑后自动加载我的 .r 文件？
假设我创建了一个函数“function.r”，在编辑该函数后我必须通过 source('function.r') 重新加载到我的全局环境中。无论如何，每次我进行编辑时，我是否可以避免将其重新加载到我的
r - 是否可以在命令行中将代码通过管道传递给 R 或 R 脚本？
例如，test.R 是一个单行文件: $ cat test.R # print('Hello, world!') 我们可以通过Rscript test.R 或R CMD BATCH test.R 来
r - 我可以使用 R 笔记本作为 R 包小插图吗？
我知道我可以使用 Rmd 来构建包插图，但想知道是否可以更具体地使用 R Notebooks 来制作包插图。如果是这样，我需要将 R Notebooks 编写为包小插图有什么不同吗？我正在使用最新版本
r - 在 R 运行时更新 R 包
我正在考虑使用 R 包的共享库进行 R 的站点安装。多台计算机将访问该库，以便每个人共享相同的设置。问题是我注意到有时您无法更新包，因为另一个 R 实例正在锁定库。我不能要求每个人都关闭它的 R
r - 如何从命令行向 R 提供表达式但阻止 R 立即退出？
我知道如何从命令行启动 R 并执行表达式(例如， R -e 'print("hello")' )或从文件中获取输入(例如， R -f filename.r )。但是，在这两种情况下，R 都会运行文件中
r - 从另一个 .r 文件中编辑 .r 文件
我正在尝试使我当前的项目可重现，因此我正在创建一个主文档(最终是一个 .rmd 文件)，用于调用和执行其他几个文档。这样我自己和其他调查员只需要打开和运行一个文件。当前设置分为三层:主文件、2 个读
r - 是否有任何简单的方法可以在 R 中制作不需要安装 R 的桌面应用程序
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 5年前关闭。 Improve this qu
r - 如何在 R 包的手册中包含 Authors@R？
我的 R 包中有以下描述文件 Package: blah Title: What the Package Does (one line, title case) Version: 0.0.0.9000
r - 将 R 代码转换为 R 风格
有没有办法更有效地编写以下语句？accel 是一个数据框。 accel[[2]]<- accel[[2]]-weighted.mean(accel[[2]]) accel[[3]]<- accel[[
r - 安装 R 包时，R 如何检查系统外部依赖项？
例如，在尝试安装 R 包时 curl作为 usethis 的依赖项: * installing *source* package ‘curl’ ... ** package ‘curl’ succes
r - 在 R 包中包含 R 脚本
我想将一些软件作为一个包共享，但我的一些脚本似乎并不能很自然地作为函数运行。例如，考虑以下代码块，其中“raw.df”是一个包含离散和连续类型变量的数据框。函数“count.unique”和“squa

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

r - H2O:无法通过 `h2o.loadModel` 从磁盘读取大型模型