gpt4 book ai didi

r - R中数据帧的并行处理

转载 作者:行者123 更新时间:2023-12-04 23:45:30 24 4
gpt4 key购买 nike

我有一个这样的数据框:

                      Open   High    Low  Close Volume
1998-09-08 10:32:00 106.44 106.44 106.44 106.44 1
1998-09-08 10:33:00 106.42 106.42 106.35 106.35 628225
1998-09-08 10:34:00 106.31 106.38 106.31 106.38 135840
1998-09-08 10:35:00 106.35 106.35 106.32 106.34 170010
1998-09-08 10:36:00 106.35 106.36 106.35 106.36 309560
1998-09-08 10:37:00 106.44 106.50 106.44 106.50 115540
1998-09-08 10:38:00 106.49 106.53 106.49 106.52 427620
1998-09-08 10:39:00 106.53 106.54 106.52 106.53 321350
1998-09-08 10:40:00 106.55 106.60 106.54 106.54 317647
1998-09-08 10:41:00 106.56 106.63 106.56 106.63 233901

我需要更改 Open在并行处理中。我写了一个这样的函数:
parTest <- function(x){

foreach(i = 1:nrow(x)) %dopar% {
x[i,1] <- i
}
return(x)
}

但是当我调用这个函数时,没有任何变化,它返回不变的数据帧。
zz <- parTest (x)
zz

当我使用简单的 for loop它有效,但 foreach不工作 !

我还使用了适当的包和核心设置:
library(foreach)
library(doParallel)
cl <- makeCluster(4)
registerDoParallel(cl)

谢谢你的帮助。

最佳答案

foreach将从代码块中获取返回值并以某种方式组合它。在您的情况下,由于您没有指定 .combine参数,它返回列表中的每个实例。 (help(foreach) 的第一段是这样说的。)

好的,那么代码块的每个实例化会发生什么?它从调用开始时开始查看 data.frame(意味着第 2 行没有看到第 1 行中更改的 data.frame 等),更新此 data.frame,然后返回“某物”。

这个“东西”不是你想的那样。要看到这一点,请尝试使用 (x[1,1] <- 1) 之类的内容手动更新 data.frame ;这显示了赋值的返回值是值“1”,而不是 x 的内容.换句话说,赋值的返回值是赋值的值,而不是赋值给它的整个变量。

所以,在你的情况下,x[i,1] <- i默默返回i ,所以foreach的子进程的返回值(您没有捕获)是 1:nrow(x) 的列表,对你没用。如果您从 foreach 分配结果并从 foreach 显式返回代码块,你会看到这个。

我认为您想要的是代码块返回已调整的特定行,然后将它们组合到最后的 data.frame 中。请注意,如果您返回整个 data.frame,则返回 foreach将是 data.frames 的列表,而不是(我认为)你想要的。

有很多方法可以做到这一点,我将展示三种。第一个可以正常工作,并且在您管理 data.frame 的方式上更加直观。

parTest <- function(x) {
ret <- foreach(i = 1:nrow(x)) %dopar% {
x[i,1] <- i
x[i,,drop=FALSE]
}
do.call('rbind', ret)
}

如果您的 data.frame 相当大,请意识到您正在制作此 data.frame 的大量副本。如果您只需要一行(我假设您的示例被设计为一个简单的 MWE),那么这是不必要的。您可以通过以下方式简化一点:
parTest <- function(x) {
foreach(i = 1:nrow(x), .combine=rbind) %dopar% {
x[i,1] <- i
x[i,,drop=FALSE]
}
}

另一种技术,使用 iterators包裹:
library(iterators)
parTest <- function(x) {
foreach(df = iter(x, by='row'), .combine=rbind) %dopar% {
df[,1] <- 1
df
}
}

在我看来,后一种技术更具可读性。而且,如果您真的一次只关心一行,它的执行速度可能会比另一行快。

顺便说一句:我假设您真的在寻找生成的 data.frame,而不是专门针对在当前环境中更改 data.frame 的副作用。使用 %dopar% 处理并行内容时,意识到子进程无法看到或使用实际的调用环境。

关于r - R中数据帧的并行处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29828710/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com