并行运行 if 循环-6ren

并行运行 if 循环

转载作者：行者123 更新时间：2023-12-04 10:44:35

24

4

我有一个包含大约 400 万行的数据集，我需要对其进行循环。数据结构是重复的 ID 相互依赖，但数据在 ID 之间是独立的。对于每个 ID，第 [i+1] 行依赖于 [i]。这是一个可重现的例子。我确实意识到这个例子在内部函数方面并不实用，但它只是我所拥有的结构的一个演示。

set.seed(123)

id1 = rep(1,5)
id2 = rep(2,5)
id3 = rep(3,5)
ids = c(id1,id2,id3)

month = rep(seq(1,5),3)

x = round(rnorm(15,2,5))
y = rep(0,15)

df = as.data.frame(cbind(ids,month,x,y))

for (i in 1:nrow(df)){
  if(i>1 && df[i,1]==df[i-1,1]){
    #Main functions go here
    df[i,4] = df[i-1,4]^2+df[i,3]
  }
  else {
    df[i,4] = 1
  }
}

问题实际上是实际函数的 1000 次循环需要大约 90 秒，因此 400 万行需要几天时间。我这样跑是行不通的。然而，ID 是独立的，不需要一起运行。我的问题是:有没有办法并行运行这种类型的循环？一个非常不优雅的解决方案是将文件拆分为 50 个部分而不拆分 ID，并简单地在 50 个子文件上运行相同的代码。不过，我想应该有一种方法可以对此进行编码。

编辑:添加月份列以显示各行相互依赖的原因。解决以下两条评论:

1)实际上有6-7行函数要运行。我可以将 ifelse() 与多个函数一起使用吗？
2)所需的输出将是完整的数据帧。实际上有更多列，但我需要数据框中的每一行。

   ids month  x      y
1    1     1 -1      1
2    1     2  1      2
3    1     3 10     14
4    1     4  2    198
5    1     5  3  39207
6    2     1 11      1
7    2     2  4      5
8    2     3 -4     21
9    2     4 -1    440
10   2     5  0 193600
11   3     1  8      1
12   3     2  4      5
13   3     3  4     29
14   3     4  3    844
15   3     5 -1 712335

EDIT2: 我已经尝试应用另一篇文章中的 foreach() 包，但它似乎不起作用。这段代码会运行，但我认为问题在于行在核心之间的分布方式。如果每一行按顺序发送到不同的核心，那么相同的 ID 将永远不会在同一个核心中。

library(foreach)
library(doParallel)


set.seed(123)

id1 = rep(1,5)
id2 = rep(2,5)
id3 = rep(3,5)
ids = c(id1,id2,id3)

month = rep(seq(1,5),3)

x = round(rnorm(15,2,5))
y = rep(0,15)

df = as.data.frame(cbind(ids,month,x,y))

#setup parallel backend to use many processors
cores=detectCores()
cl <- makeCluster(cores[1]-1) #not to overload your computer
registerDoParallel(cl)

finalMatrix <- foreach(i=1:nrow(df), .combine=cbind) %dopar% {

  for (i in 1:nrow(df)){
    if(i>1 && df[i,1]==df[i-1,1]){
      #Main functions go here
      df[i,4] = df[i-1,4]^2+df[i,3]
    }
    else {
      df[i,4] = 1
    }
  }
}
#stop cluster
stopCluster(cl)

最佳答案

因此，只需使用 Rcpp 重新编写您的循环:

#include <Rcpp.h>
using namespace Rcpp;

// [[Rcpp::export]]
NumericVector fill_y(const NumericVector& x) {

  int n = x.length();
  NumericVector y(n); y[0] = 1;
  for (int i = 1; i < n; i++) {
    y[i] = pow(y[i - 1], 2) + x[i];
  }
  return y;
}

并且，要将它应用于每个组，请使用 dplyr:

df %>%
  group_by(ids) %>%
  mutate(y2 = fill_y(x))

我认为这应该足够快，因此您不需要并行性。实际上，我在@Val 的 testdat 上运行了它，只用了 2 秒(使用旧计算机)。

告诉我是否可以。否则，我会制作平行版本。

关于并行运行 if 循环，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49113467/

24

4

0

文章推荐： security - 在线解释器/编译器如何处理恶意代码？

文章推荐： c - C中的字符串分隔和格式化

文章推荐： visual-studio-2005 - Visual Studio 2005 中的 LNK 2005 错误

R同时运行2个不同的代码块(并行)
有没有办法同时运行 2 个不同的代码块。我一直在研究 R 中的并行包，它们似乎都基于在循环中运行相同的函数。我正在寻找一种同时运行不同函数的方法(循环的 1 次迭代)。例如，我想在某个数据对象上创建一
C# 并行.For
无论如何增加 Parallel.For 启动后的循环次数？示例如下: var start = 0; var end = 5; Parallel.For(start, end, i => { C
Golang 并行
我是 Golang 的新手，正在尝试了解并发和并行。我阅读了下面提到的关于并发和并行的文章。我执行了相同的程序。但没有得到相同的(混合字母和字符)输出。首先获取所有字母，然后获取字符。似乎并发不工作，
R 同时循环遍历两个或多个向量 - 并行
我正在寻找同时迭代 R 中两个或多个字符向量/列表的方法，例如。有没有办法做这样的事情: foo <- c('a','c','d') bar <- c('aa','cc','dd') for(i in
Raku 并行/函数方法
我对 Raku 很陌生，我对函数式方法有疑问，尤其是 reduce。我最初有这样的方法: sub standardab{ my $mittel = mittel(@_); my $foo =
multithreading - 并行/多处理器音频处理资源
我最近花了很多时间来学习实时音频处理的细节，我发现的大多数库/工具都是c / c++代码或脚本/图形语言的形式，并在其中编译了c / c++代码。引擎盖。使用基于回调的API，与GUI或App中的其
Jmeter for循环http请求-并行
我正在使用 JMeter 进行图像负载测试。我有一个图像名称数组并遍历该数组，我通过 HTTP 请求获取所有图像。 -> loop_over_image - for loop controller
python 并行 Popen
我整个晚上都在困惑这个问题...... makeflags = ['--prefix=/usr','--libdir=/usr/lib'] rootdir='/tmp/project' ps = se
c# - 并行 C#
我正在尝试提高计算图像平均值的方法的性能。为此，我使用了两个 For 语句来迭代所有图像，因此我尝试使用一个 Parallel For 来改进它，但结果并不相同。我做错了吗？或者是什么导致了差异？
c++ - 并行 for 循环体的最佳大小
假设您有一个并行 for 循环实现，例如ConcRT parallel_for，将所有工作放在一个 for 循环体内总是最好的吗？举个例子: for(size_t i = 0; i < size()
C#并行，如何设置线程数
我想并行运行一部分代码。目前我正在使用 Parallel.For 如何让10、20或40个线程同时运行我当前的代码是: Parallel.For(1, total, (ii) =>
Paypal自适应支付(并行)550001错误
我使用 PAY API 进行了 PayPal 自适应并行支付，其中无论用户(买家)购买什么，都假设用户购买了总计 100 美元的商品。在我的自适应并行支付中，有 2 个接收方:Receiver1 和
algorithm - 并行/集群中图形节点分组的有效算法
我正在考虑让玩家加入游戏的高效算法。由于会有大量玩家，因此算法应该是异步的(即可扩展到集群中任意数量的机器)。有细节:想象有一个无向图(每个节点都是一个玩家)。玩家之间的每条边意味着玩家可以参加同一场
Java 并行 volatile i++
我有一个全局变量 volatile i = 0; 和两个线程。每个都执行以下操作: i++; System.out.print(i); 我收到以下组合。 12、21 和 22。我理解为什么我没有得到
c++ - OpenMp 并行
我有以下称为 pgain 的方法，它调用我试图并行化的方法 dist: /***************************************************************
Ruby 并行/多线程编程来读取巨大的数据库
我有一个 ruby 脚本读取一个巨大的表(约 2000 万行)，进行一些处理并将其提供给 Solr 用于索引目的。这一直是我们流程中的一大瓶颈。我打算在这里加快速度，我想实现某种并行性。我对 Ru
Golang 和并发/并行
我正在研究 Golang 并遇到一个问题，我已经研究了几天，我似乎无法理解 go routines 的概念以及它们的使用方式。基本上我是在尝试生成数百万条随机记录。我有生成随机数据的函数，并将创建一
for-loop - 并行 For 循环
我希望 for 循环使用 go 例程并行。我尝试使用 channel ，但没有用。我的主要问题是，我想在继续之前等待所有迭代完成。这就是为什么在它不起作用之前简单地编写 go 的原因。我尝试使用 ch
haskell - 并行 IO 导致终端出现随机文本输出
我正在使用 import Control.Concurrent.ParallelIO.Global main = parallel_ (map processI [1..(sdNumber runPa
R:并行 makePSOCKcluster 挂起
我正在尝试通过 makePSOCKcluster 连接到另一台计算机: library(parallel) cl ... doTryCatch -> recvData -> makeSOCKm

首页

博学

6Ren·AI

商城

并行运行 if 循环