r - 适合许多 glm 模型 : improve speed-6ren

r - 适合许多 glm 模型 : improve speed

转载作者：行者123 更新时间：2023-12-05 02:58:58

24

4

我正在编写一个适合许多 glm 模型的函数。为了给你一些关于这个功能的想法，我包含了一小部分我的代码。在几个 SO 用户的帮助下，该功能现在可以用于我的分析目的。然而，有时，特别是当样本量相对较小时，可能需要很长时间才能完成整个过程。为了减少时间，我正在考虑更改迭代最大化的一些细节，例如最大迭代次数。我还没有找到一种方法，可能是因为我仍然不熟悉 R 术语。任何这样做的建议或其他减少时间的方法都将不胜感激。

all_glm <- function(crude, xlist, data, family = "binomial", ...) {
  # md_lst include formula for many models to be fitted  
  comb_lst <- unlist(lapply(1:n, function(x) combn(xlist, x, simplify=F)), recursive=F)
  md_lst   <- lapply(comb_lst,function(x) paste(crude, "+", paste(x, collapse = "+")))
  models  <- lapply(md_lst, function(x) glm(as.formula(x), family = family, data = data))
  OR      <- unlist(lapply(models, function(x) broom::tidy(x, exponentiate = TRUE)$estimate[2]))

}

编辑感谢 @BenBolker 指导我使用 fastglm 包，我最终得到了几个 r 包，它们可以为 glm 提供更快的替代方案。我试过 fastglm 和 speedglm。在我的机器上，两者似乎都比 glm 快。

library(fastglm)
library(speedglm)
# from 
set.seed(1)
n <- 25000
k <- 500
y <- rbinom(n, size = 1, prob = 0.5)
x <- round( matrix(rnorm(n*k),n,k),digits=3)
colnames(x) <-paste("s",1:k,sep = "")
df <- data.frame(y,x)
fo <- as.formula(paste("y~",paste(paste("s",1:k,sep=""),collapse="+")))   

# Fit three models: 
system.time(m_glm <- glm(fo, data=df, family = binomial))
system.time(m_speedglm <- speedglm(fo, data= df, family = binomial()))
system.time(m_fastglm <- fastglm(x, y, family = binomial()))

> system.time(m_glm <- glm(fo, data=df, family = binomial))
   user  system elapsed 
  56.51    0.22   58.73 
> system.time(m_speedglm <- speedglm(fo, data= df, family = binomial()))
   user  system elapsed 
  17.28    0.04   17.55 
> system.time(m_fastglm <- fastglm(x, y, family = binomial()))
   user  system elapsed 
  23.87    0.09   24.12

最佳答案

通常用于拟合 glms 的 IRLS 算法需要在每次迭代时进行矩阵求逆/分解。 fastglm 提供了几种不同的分解选项，默认选择是一个较慢但更稳定的选项(QR with column-pivoting)。如果您只对速度感兴趣，那么两种可用的 Cholesky 型分解中的一种将显着提高速度，这比仅更改 IRLS 迭代次数更可取。 fastglm 和标准 IRLS 实现之间的另一个显着区别是它谨慎使用半步以防止发散(在许多情况下，IRLS 在实践中可能会发散)。

fastglm 的method 参数允许改变分解。选项 2 给出了 Vanilla Cholesky 分解，选项 3 给出了一个稍微更稳定的版本。在我的电脑上，您提供的示例的时间是:

> system.time(m_glm <- glm(fo, data=df, family = binomial))
   user  system elapsed 
 23.206   0.429  23.689 

> system.time(m_speedglm <- speedglm(fo, data= df, family = binomial()))
   user  system elapsed 
 15.448   0.283  15.756 

> system.time(m_fastglm <- fastglm(x, y, family = binomial(), method = 2))
   user  system elapsed 
  2.159   0.055   2.218 

> system.time(m_fastglm <- fastglm(x, y, family = binomial(), method = 3))
   user  system elapsed 
  2.247   0.065   2.337

关于将 broom 与 fastglm 对象一起使用，我可以研究一下。

关于分解的另一个注意事项:当 fastglm 使用 QR 分解时，它直接使用设计矩阵。虽然 speedglm 在技术上提供了 QR 分解，但它的工作原理是首先计算 $X^TX$ 并对其进行分解，这在数值上比 X 上的 QR 更不稳定。

关于r - 适合许多 glm 模型 : improve speed，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58442026/

24

4

0

文章推荐： flutter - 在 flutter 中解码utf8字符串

java - "The value of the field speed is the average speed in knots"添加值
好吧，我是编程新手，我想知道如何打印某些字段的值。例如，我有一个速度，单位是节(21 节)，如何将“节”部分添加到我的代码中，这样我就不会只打印整数？我希望它有 [number] 节。这是我到目前为止
Python : Functional code speed is faster than pure code speed. 为什么？
我正在研究堆算法。我认为堆算法作为函数会比纯代码慢。所以我做了一个测试。但我发现函数式代码比纯代码快得多。我觉得这很奇怪，我不知道为什么。 enter image description her
oop - 为什么分别坚持 get-set 而不是 car.speed() 和 car.speed(55) ？
除了明确的清晰度，我们为什么要坚持:car.getSpeed()和 car.setSpeed(55)当这也可以使用时:car.speed()和 car.speed(55) 我知道 get() 和 se
android - "Speed limits are not available for this project"实现 Google Speed Limit Api 时出现问题
我正在尝试实现 google speed limit API 来计算从一个位置到另一个位置所需的最低速度。但是当我在浏览器中运行时出现以下错误。谁能帮我解决这个问题？谢谢 "error": {
python 3.3 : LAN speed test which calculates the read & write speeds and then returns the figure to Excel
我正在创建一个 LAN 速度测试，它在指定位置创建一个指定大小的数据文件，并记录创建/读取它的速度。在大多数情况下，这是正常工作的，只有一个问题:读取速度快得离谱，因为它所做的只是计算文件打开所需的时
java 小服务程序 : how to speed this up?
我有以下函数，它会为生成的每个订单项调用。有谁知道如何加快速度？ private String getDetails(String doc){ String table=""; jav
c# - 如何在一个简单的赛车游戏中管理 "speed"？
我正在尝试使用 C#、sdl.net 开发一个简单的 2d 赛车游戏(自上而下查看)。现在，我正在尝试管理我的车的速度、加速度和刹车。我的问题是算法。我的循环 (Events_Tick) 每秒执行 5
java - 使用多线程读取单个文件 : should speed up?
我正在读取一个包含 500000 行的文件。我正在测试多线程如何加速进程.... private void multiThreadRead(int num){ for(int i=1; i"+
Java机器人鼠标移动: setting speed?
Java Robot 类允许移动鼠标，就好像移动了实际的物理鼠标一样。但是，如何以人性化(而非即时)的方式将鼠标从 Point1 移动到 Point2？也就是说，如何设置移动速度？如果Robot类
dns - 通过域名而不是IP连接Redis : speed?
我无法找到有关此主题的现有答案。我正在运行一个连接到远程 redis 服务器(不在同一主机上)的 redis 客户端。我可以通过域名或服务器的 IP 连接，即我可以通过 redis-cli -h
iPhone核心位置: How to get the most accurate speed
我正在尝试将 GPS 功能添加到我的 iPhone 应用程序中。这是一款在步行或运行时使用的锻炼应用程序。所以我想使用 GPS 来显示人的移动速度(以英里/小时和分钟/英里为单位)。我应该如何配置
javascript - 更改 "speed"几秒钟
所以我有一个以“速度”移动的对象，现在我设置了代码，当该对象与另一个对象碰撞时，该对象的速度会降低。我尝试通过改变速度来实现这一点，当速度在 3 秒后改变时，将其改回原来的速度。这是我自己尝试过的，
MySQL查询优化: how can I speed up this query?
这是我的 table : CREATE TABLE `tab_adasf` ( `adasf_id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
python : how to speed up this file loading
我正在寻找一种加速文件加载的方法: 数据包含约100万行，制表符以“\t”(tabulation char)分隔，utf8编码，使用以下代码解析完整文件大约需要9秒。但是，我希望几乎是一秒钟! def
用于在多个多边形之间构建成本最低的路径的 Python 脚本 : How to speed up it?
我创建了一个 python 程序，该程序使用 ArcGIS 的“CostPath”函数在 shapefile“selected_patches.shp”中包含的几个多边形之间自动构建最低成本路径
python : speed dating & permutation
我有 36 个人和 6 张 table 。我想围绕每张 table 组成 6 个小组。然后再组成 6 个其他组，再组成 6 个其他组……直到每个人都遇到每个人，但没有人遇到两次。到目前为止，我想出了
performance - Page Speed - 消除渲染阻塞
我正在努力提高我的 Google Page Speed 得分。目前移动设备为 51/100，桌面设备为 83/100。其中一个问题是“消除首屏内容中阻止渲染的 JavaScript 和 CSS”。适
iphone - "speed view"的局部声明隐藏了实例变量
所以我在几个小时内一直在寻找为什么我的 iPhone 应用程序讨厌我。这是我得到的错误:警告:“speedView”的局部声明隐藏了实例变量。这是我的 .m 文件 @implementation Ma
php - Page Speed - 测试脚本响应速度
我最近做了一个网站，但加载速度很慢。我的 Firebug 页面速度得分是 82/100。我觉得这很好。我的网站有 2 个图像，它们有 100KB 和一些其他小图像，用于子弹、箭头和不超过 50KB 的
python - 构建词形还原器 : speed optimization
我正在用 python 构建词形还原器。因为我需要它实时运行/处理相当大量的数据，所以处理速度是最重要的。数据:我有所有可能的后缀，这些后缀链接到它们可以组合的所有词类型。此外，我还有与其词型和引理相

首页

博学

6Ren·AI

商城

r - 适合许多 glm 模型 : improve speed