parallel-processing - Julia 中的并行化梯度计算-6ren

parallel-processing - Julia 中的并行化梯度计算

转载作者：行者123 更新时间：2023-12-04 11:36:18

25

4

前段时间我被说服放弃我舒适的 matlab 编程并开始在 Julia 中编程。我一直在研究神经网络，我认为现在有了 Julia，我可以通过并行化梯度计算来更快地完成工作。

不需要一次性计算整个数据集的梯度；相反，可以拆分计算。例如，通过将数据集分成几部分，我们可以计算每个部分的部分梯度。然后通过将部分梯度相加来计算总梯度。

不过，原理很简单，当我与 Julia 并行时，性能会下降，即一个进程比两个进程快!我显然做错了什么......我已经咨询了论坛中提出的其他问题，但我仍然无法拼凑出答案。我认为我的问题在于有很多不必要的数据在移动，但我无法正确修复它。

为了避免发布凌乱的神经网络代码，我在下面发布了一个更简单的示例，该示例在线性回归的设置中复制了我的问题。

下面的代码块为线性回归问题创建了一些数据。代码解释了常量，但 X 是包含数据输入的矩阵。我们随机创建一个权重向量 w 当与 相乘时X 创建一些目标是 .

######################################
## CREATE LINEAR REGRESSION PROBLEM ##
######################################

# This code implements a simple linear regression problem

MAXITER = 100   # number of iterations for simple gradient descent
N = 10000       # number of data items
D = 50          # dimension of data items
X = randn(N, D) # create random matrix of data, data items appear row-wise
Wtrue = randn(D,1) # create arbitrary weight matrix to generate targets
Y = X*Wtrue     # generate targets

下面的下一个代码块定义了用于测量回归适应度(即负对数似然)和权重向量梯度 的函数。 w:

####################################
##       DEFINE FUNCTIONS         ##
####################################

@everywhere  begin

  #-------------------------------------------------------------------
  function negative_loglikelihood(Y,X,W)
  #-------------------------------------------------------------------

    # number of data items
    N  = size(X,1)
    # accumulate here log-likelihood
    ll = 0
    for nn=1:N
      ll = ll - 0.5*sum((Y[nn,:] - X[nn,:]*W).^2)
    end

    return ll
  end


  #-------------------------------------------------------------------
  function negative_loglikelihood_grad(Y,X,W, first_index,last_index)
  #-------------------------------------------------------------------

    # number of data items
    N  = size(X,1)
    # accumulate here gradient contributions by each data item
    grad = zeros(similar(W))
    for nn=first_index:last_index
      grad = grad +  X[nn,:]' * (Y[nn,:] - X[nn,:]*W)
    end

    return grad
  end


end

请注意，上述函数是故意没有向量化的!我选择不进行矢量化，因为最终代码(神经网络案例)也不会接受任何矢量化(让我们不要深入了解更多细节)。

最后，下面的代码块显示了一个非常简单的梯度下降，它试图恢复参数权重向量 w 从给定的数据是和 X :

####################################
##     SOLVE LINEAR REGRESSION    ##
####################################


# start from random initial solution
W = randn(D,1)

# learning rate, set here to some arbitrary small constant
eta = 0.000001

# the following for-loop implements simple gradient descent
for iter=1:MAXITER

  # get gradient
  ref_array = Array(RemoteRef, nworkers())

  # let each worker process part of matrix X
  for index=1:length(workers())

    # first index of subset of X that worker should work on
    first_index       = (index-1)*int(ceil(N/nworkers())) + 1
    # last index of subset of X that worker should work on
    last_index        = min((index)*(int(ceil(N/nworkers()))), N)

    ref_array[index] = @spawn negative_loglikelihood_grad(Y,X,W, first_index,last_index)
  end

  # gather the gradients calculated on parts of matrix X
  grad = zeros(similar(W))
  for index=1:length(workers())
    grad = grad + fetch(ref_array[index])
  end

  # now that we have the gradient we can update parameters W
  W = W + eta*grad;

  # report progress, monitor optimisation
  @printf("Iter %d neg_loglikel=%.4f\n",iter, negative_loglikelihood(Y,X,W))
end

正如希望看到的那样，我在这里尝试以最简单的方式并行计算梯度。我的策略是在尽可能多的可用 worker 中打破梯度计算。每个 worker 只需要处理矩阵 X 的一部分，这部分由 first_index 和 last_index 指定。因此，每个 worker 都应该与 X[first_index:last_index,:] 一起工作。 .例如，对于 4 个 worker 和 N = 10000，工作应划分如下:

worker 1 => first_index = 1，last_index = 2500

worker 2 => first_index = 2501，last_index = 5000

worker 3 => first_index = 5001，last_index = 7500

worker 4 => first_index = 7501，last_index = 10000

不幸的是，如果我只有一个 worker ，那么整个代码的运行速度会更快。如果通过 addprocs() 添加更多 worker ，代码运行速度较慢。可以通过创建更多数据项来加剧这一问题，例如使用 N=20000。
随着数据项的增多，降级更加明显。
在我的 N=20000 和一个内核的特定计算环境中，代码运行时间约为 9 秒。使用 N=20000 和 4 个内核，大约需要 18 秒!

受此论坛中的问题和答案的启发，我尝试了许多不同的事情，但不幸的是无济于事。我意识到并行化是幼稚的，数据移动一定是问题所在，但我不知道如何正确地做到这一点。似乎关于这个问题的文档也有点稀缺(Ivo Balbaert 的好书也是如此)。

我很感激你的帮助，因为我已经被这个问题困住了很长一段时间，我的工作真的需要它。对于任何想要运行代码的人，为了省去复制粘贴的麻烦，您可以获取代码 here .

感谢您花时间阅读这个冗长的问题!帮我把它变成一个模型答案，任何 Julia 的新手都可以咨询!

最佳答案

如果您想减少数据移动量，您应该强烈考虑使用 SharedArrays。您可以只预先分配一个输出向量，并将其作为参数传递给每个工作人员。正如您所建议的那样，每个工作人员都会设置其中的一部分。

关于parallel-processing - Julia 中的并行化梯度计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31656858/

25

4

0

文章推荐： image-processing - DICOM 压缩显式 VR 小端 (1.2.840.10008.1.2.1.99)

文章推荐： visual-studio - 无法登录到 Visual Studio 2015

文章推荐： r - R中的双样本卡方检验

oracle - 在 Oracle 中，PARALLEL 被广泛使用。 PARALLEL、PARALLEL(8)、PARALLEL(a,8)有什么区别？
在 Oracle 中，PARALLEL 被广泛使用。提示 PARALLEL、PARALLEL(8) 和 PARALLEL(a,8) 有什么区别。如何选择最佳的查询提示？ SELECT /*+ PARA
parallel-processing - OMP : What is the difference between OMP PARALLEL DO and OMP DO (Without parallel directive at all)
好的，我希望以前没有问过这个问题，因为在搜索中很难找到。我查看了 F95 手册，但仍然觉得这很模糊: For the simple case of: DO i=0,99 END DO 我正
parallel-processing - GNU parallel 有两个参数
我有一个 C-shell 脚本，其中有一个名为 $hosts_string 的变量，格式为: host1,host2,...,hostN 我还有一个名为 $chrs_string 的变量，其形式为:
parallel-processing - Gnu平行: nested parallelism
是否可以从由gnu parallel产生的脚本的多次运行中调用gnu parallel？我有一个python脚本，可以运行100个顺序顺序迭代，并且在每次迭代中的某处，并行计算4个值(使用gnu p
gnu-parallel - GNU Parallel - 多个命令
我想在几个输入上运行几个长时间运行的进程。例如。: solver_a problem_1 solver_b problem_1 ... solver_b problem_18 solver_c pro
delphi - Parallel.For 和 Parallel.For 之间有区别吗？
TParallel.&For 和 TParallel.For 之间有区别吗？两者都可以在 Delphi 10 Seattle 中编译。那么我应该坚持哪一个呢？最佳答案 TParallel.&For
parallel-processing - Julia Parallel 宏似乎不起作用
我第一次使用 julia 进行并行计算.我有点头疼。所以假设我开始 julia如下:julia -p 4 .然后我为所有处理器声明 a 函数，然后将它与 pmap 一起使用还有@parallel fo
parallel-processing - "embarrassingly parallel"短语的来源
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 10年前关闭。 Improve this
c# - Parallel.For 与 Parallel.Invoke
我有一堆相互排斥的方法，因此可以并行运行。有这样做的好方法吗？到目前为止，我有以下两种实现方式，但我不确定是否应该选择其中一种。使用 Parallel.For : Parallel.For(0, 2
parallel-processing - 使用 GNU parallel 并行化具有各种参数的脚本
我对并行运行脚本很感兴趣，并且我已经开始查看 GNU 并行工具，但是我遇到了一些麻烦。我的脚本 doSomething 有 3 个参数，我想在参数的不同值上并行运行脚本。我该怎么做？我试过:para
parallel-processing - 使用 GNU parallel 在多核上运行并行作业
我需要在多核(和多线程)机器上运行多个作业。我正在使用 GNU Parallel utility跨核心分配作业以加速任务。要执行的命令在名为“命令”的文件中可用。我使用以下命令运行 GNU Paral
parallel-processing - 如何使用 gnu-parallel 处理具有两个输入的脚本？
我正在尝试使用如下两个输入运行 Python 脚本。我得到了大约 300 个这两个输入，所以我想知道是否有人可以建议如何并行运行它们。单次运行看起来像: python stable.py KOG_1
gnu-parallel - 如何使用 "GNU parallel"在多个目录中执行一个命令？
每天我都必须更新一堆存储库，并在其中一些中执行另一个命令(来自 CARTON，Perl 模块依赖管理器)。我总是使用循环来执行此操作，但我想与并行执行GNU 并行如果可能，但我不太了解它的tuto
parallel-processing - @parallel 和 pmap 到底有什么区别？
正如标题所说:@parallel 之间究竟有什么区别？和 pmap ?我的意思不是明显的一个是循环的宏，另一个适用于函数，我的意思是它们的实现究竟有什么不同，我应该如何使用这些知识在它们之间进行选择？
parallel-processing - Windows Azure : Parallelization of the code
我有一些矩阵乘法运算。我想通过多个处理器并行执行这些操作。这可以使用 MPI(消息传递接口(interface))在高性能计算集群上完成。同样，我可以使用多个辅助角色在云中进行一些并行化吗？有什么办
python - 为什么joblib.Parallel()比非并行计算花费更多的时间？ Parallel()的运行速度是否应该比非并行计算快？
joblib模块提供了一个简单的帮助程序类，以使用多处理并行编写循环的循环。这段代码使用列表推导来完成这项工作： import time from math import sqrt from job
c openmp parallel for inside a parallel region
我的问题是这样的one .但我想做一些不同的事情... 例如，在我的并行区域内，我想在 4 个线程上运行我的代码。当每个线程进入 for 循环时，我想在 8 个线程上运行我的代码。像 #pramga
parallel-processing - ipython 笔记本 : how to parallelize external script
我正在尝试使用 ipython 并行库中的并行计算。但是我对此知之甚少，而且我发现很难从对并行计算一无所知的人那里阅读该文档。有趣的是，我发现的所有教程都只是重复使用文档中的示例，并使用相同的解释，
parallel-processing - Gradle : Run subproject's tasks in parallel
我的项目结构看起来像 Root + subproj1 + subproj2 在每个子项目中定义了自己的任务 run(){}。我想要做的是从 Root 项目的运行任务并行运行 :subpro
parallel-processing - Parallel.ForEach 应该在 DB 调用中使用吗？
我有一个 Foo ID 的列表。我需要为每个 ID 调用一个存储过程。例如 Guid[] siteIds = ...; // typically contains 100 to 300 elemen

首页

博学

6Ren·AI

商城

parallel-processing - Julia 中的并行化梯度计算