gpt4 book ai didi

r - 在 R 中使用多核来分析 GWAS 数据

转载 作者:行者123 更新时间:2023-12-04 11:42:54 25 4
gpt4 key购买 nike

我正在使用 R 来分析全基因组关联研究数据。我有大约 500,000 个潜在的预测变量(单核苷酸多态性,或 SNP),并且想要测试它们中的每一个与连续结果(在这种情况下是血液中的低密度脂蛋白浓度)之间的关联。

我已经编写了一个可以毫无问题地执行此操作的脚本。简单解释一下,我有一个名为“Data”的数据对象。每行对应于研究中的特定患者。有年龄、性别、体重指数 (BMI) 和血液 LDL 浓度的列。还有 50 万列其他包含 SNP 数据的列。

我目前正在使用 for 循环来运行线性模型一百万次,如图所示:

# Repeat loop half a million times
for(i in 1:500000) {

# Select the appropriate SNP
SNP <- Data[i]

# For each iteration, perform linear regression adjusted for age, gender, and BMI and save the result in an object called "GenoMod"
GenoMod <- lm(bloodLDLlevel ~ SNP + Age + Gender + BMI, data = Data)

# For each model, save the p value and error for each SNP. I save these two data points in columns 1 and 2 of a matrix called "results"
results[i,1] <- summary(GenoMod)$coefficients["Geno","Pr(>|t|)"]
results[i,2] <- summary(GenoMod)$coefficients["Geno","Estimate"]
}

所有这些工作正常。但是,我真的很想加快我的分析速度。因此,我一直在试验多核、DoMC 和 foreach 包。

我的问题是,有人可以帮助我使用 foreach 方案调整此代码吗?

我在显然有 16 个可用内核的 Linux 服务器上运行该脚本。我尝试过使用 foreach 包进行试验,但使用它的结果相对较差,这意味着使用 foreach 运行分析需要更长的时间。

例如,我尝试保存线性模型对象,如下所示:
library(doMC)
registerDoMC()
results <- foreach(i=1:500000) %dopar% { lm(bloodLDLlevel ~ SNP + Age + Gender + BMI, data = Data) }

这比仅使用常规 for 循环需要两倍多的时间。任何关于如何更好或更快速地做到这一点的建议将不胜感激!我知道使用 lapply 的并行版本可能是一种选择,但也不知道如何做到这一点。

祝一切顺利,

亚历克斯

最佳答案

给你一个启动:如果你使用Linux,你可以做multicore parallel 中包含的方法包裹。虽然您在使用例如 foreach 包时需要设置整个事情,但使用这种方法就不再需要了。您的代码只需执行以下操作即可在 16 个内核上运行:

require(parallel)

mylm <- function(i){
SNP <- Data[i]
GenoMod <- lm(bloodLDLlevel ~ SNP + Age + Gender + BMI, data = Data)
#return the vector
c(summary(GenoMod)$coefficients["Geno","Pr(>|t|)"],
summary(GenoMod)$coefficients["Geno","Estimate"])
}

Out <- mclapply(1:500000, mylm,mc.cores=16) # returns list
Result <- do.call(rbind,Out) # make list a matrix

在这里,您创建了一个函数,该函数返回一个具有所需数量的向量,并在其上应用索引。我无法检查这一点,因为我无权访问数据,但它应该可以工作。

关于r - 在 R 中使用多核来分析 GWAS 数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8488519/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com