matrix - Julia:将 pmap 与数组与 SharedArrays 一起使用-6ren

matrix - Julia:将 pmap 与数组与 SharedArrays 一起使用

转载作者：行者123 更新时间：2023-12-04 11:49:04

我已经在 Julia 工作了几个月，我对并行编写一些代码很感兴趣。我正在解决一个问题，我使用 1 个模型为几个不同的接收器生成数据(每个接收器的数据是一个向量)。每个接收器的数据可以独立计算，这让我相信我应该能够使用 pmap 函数。我的计划是将数据初始化为 2D SharedArray(每列代表 1 个接收器的数据)，然后在每一列上进行 pmap 循环。但是我发现将 SharedArray 与 pmap 一起使用并不比使用 map 串行工作快。我编写了以下虚拟代码来说明这一点。

@everywhere function Dummy(icol,model,data,A,B)
    nx = 250
    nz = 250
    nh = 50
    for ih = 1:nh
        for ix = 1:nx
            for iz = 1:nz
                data[iz,icol] += A[iz,ix,ih]*B[iz,ix,ih]*model[iz,ix,ih]
            end
        end
    end
end


function main()

    nx = 250
    nz = 250
    nh = 50

    nt = 500
    ncol = 100

    model1 = rand(nz,nx,nh)
    model2 = copy(model1)
    model3 = convert(SharedArray,model1)

    data1 = zeros(Float64,nt,ncol)
    data2 = SharedArray(Float64,nt,ncol)
    data3 = SharedArray(Float64,nt,ncol)

    A1 = rand(nz,nx,nh)
    A2 = copy(A1)
    A3 = convert(SharedArray,A1)

    B1 = rand(nz,nx,nh)
    B2 = copy(B1)
    B3 = convert(SharedArray,B1)


    @time map((arg)->Dummy(arg,model1,data1,A1,B1),[icol for icol = 1:ncol])
    @time pmap((arg)->Dummy(arg,model2,data2,A2,B2),[icol for icol = 1:ncol])
    @time pmap((arg)->Dummy(arg,model3,data3,A3,B3),[icol for icol = 1:ncol])

    println(data1==data2)
    println(data1==data3)

end

main()

我用 Julia -p 3 开始 Julia session 并运行脚本。 3次测试的时间分别为1.4s、4.7s和1.6s。与带有映射的常规数组(1.4 秒)相比，将 SharedArray 与 pmap(1.6 秒运行时)一起使用并没有提供任何速度改进。我也很困惑为什么第二种情况(数据作为 SharedArray，所有其他输入作为带有 pmap 的常规数组)这么慢。我需要改变什么才能从并行工作中受益？

最佳答案

前言:是的，您的问题实际上有解决方案。请参阅底部的代码。但是，在我到达那里之前，我将进行一些解释。

我认为这里问题的根源是内存访问。首先，虽然我没有对其进行严格调查，但我怀疑可以对 Julia 的底层代码进行一定数量的改进，以改进它在并行处理中处理内存访问的方式。尽管如此，在这种情况下，我怀疑基本代码的任何潜在问题(如果确实存在)并没有太大的错。相反，我认为仔细考虑代码中到底发生了什么以及相对于内存访问意味着什么是有用的。

在 Julia 中工作时要记住的一个关键是它以列优先顺序存储数组。也就是说，它将它们存储为彼此顶部的列堆栈。这也适用于维度 > 2。见 this Julia 性能提示的非常有用的部分，了解更多信息。这意味着在单列中逐行访问是快速的。但是，如果您需要在列之间跳来跳去，那么您就会遇到麻烦。是的，访问 ram 内存可能相对较快，但访问缓存内存要快得多，因此如果您的代码允许将一列左右从 ram 加载到缓存中然后进行处理，那么您将做很多事情比如果您需要在 ram 和缓存之间进行大量交换要好。在您的代码中，您在计算之间从一列切换到另一列，就像没人管一样。例如，在您的 pmap 中每个进程都会获取共享数组的不同列来处理。然后，每个都沿着该列的行向下移动并修改其中的值。但是，由于它们试图彼此并行工作，并且整个阵列太大而无法放入您的缓存中，因此在 ram 和缓存之间发生了大量交换，这确实会减慢您的速度。从理论上讲，也许可以设计一个足够聪明的底层内存管理系统来解决这个问题，但我真的不知道——这超出了我的工资等级。当然，您对其他对象的访问也会发生同样的事情。

并行化时要记住的另一件事是您的触发器(即计算机计算)与读/写操作的比率。触发器往往可以很好地并行化，你可以有不同的内核、进程等，对它们保存在它们的小缓存中的自己的数据位进行自己的小计算。但是，读/写操作不能很好地并行化。有一些事情可以做来设计硬件系统来改进这一点。但一般来说，如果你有一个给定的计算机系统，比如说，两个内核，并且你再添加四个内核，你执行触发器的能力将增加三倍，但你从内存读取/写入数据的能力会赢真的进步了这么多。 (注意:这过于简单化，很大程度上取决于您的系统)。然而，一般来说，触发器与读/写的比率越高，您可以从并行性中获得更多的好处。在您的情况下，您的代码涉及相对少量的触发器(一些乘法和加法)的相当数量的读/写(所有这些对不同数组的访问)。这只是要记住的事情。

幸运的是，如果编写正确，您的案例可以通过并行性获得一些良好的加速。根据我使用 Julia 的经验，当我可以分解数据并让工作人员单独处理数据块时，我所有最成功的并行性都出现了。你的情况恰好可以接受。下面是我写的一些代码的例子。您可以看到，从一个处理器到三个处理器，速度提高了近 3 倍。代码在某些地方有点粗糙，但它至少展示了如何处理这样的事情的总体思路。之后我对代码给出了一些评论。

addprocs(3)

nx = 250;
nz = 250;
nh = 50;
nt = 250;
@everywhere ncol = 100;

model = rand(nz,nx,nh);

data = SharedArray(Float64,nt,ncol);

A = rand(nz,nx,nh);

B = rand(nz,nx,nh);

function distribute_data(X, obj_name_on_worker::Symbol, dim)
    size_per_worker = floor(Int,size(X,1) / nworkers())
    StartIdx = 1
    EndIdx = size_per_worker
    for (idx, pid) in enumerate(workers())
        if idx == nworkers()
            EndIdx = size(X,1)
        end
        println(StartIdx:EndIdx)
        if dim == 3
            @spawnat(pid, eval(Main, Expr(:(=), obj_name_on_worker, X[StartIdx:EndIdx,:,:])))
        elseif dim == 2
            @spawnat(pid, eval(Main, Expr(:(=), obj_name_on_worker, X[StartIdx:EndIdx,:])))
        end
        StartIdx = EndIdx + 1
        EndIdx = EndIdx + size_per_worker - 1
    end
end

distribute_data(model, :model, 3)
distribute_data(A, :A, 3)
distribute_data(B, :B, 3)
distribute_data(data, :data, 2)

@everywhere function Dummy(icol,model,data,A,B)
    nx = size(model, 2)
    nz = size(A,1)
    nh = size(model, 3)
    for ih = 1:nh
        for ix = 1:nx
            for iz = 1:nz
                data[iz,icol] += A[iz,ix,ih]*B[iz,ix,ih]*model[iz,ix,ih]
            end
        end
    end
end

regular_test() = map((arg)->Dummy(arg,model,data,A,B),[icol for icol = 1:ncol])

function parallel_test()
    @everywhere begin
        if myid() != 1
            map((arg)->Dummy(arg,model,data,A,B),[icol for icol = 1:ncol])
        end
    end
end

@time regular_test(); # 2.120631 seconds (307 allocations: 11.313 KB)
@time parallel_test(); # 0.918850 seconds (5.70 k allocations: 337.250 KB)

getfrom(p::Int, nm::Symbol; mod=Main) = fetch(@spawnat(p, getfield(mod, nm)))
function recombine_data(Data::Symbol)
    Results = cell(nworkers())
    for (idx, pid) in enumerate(workers())
        Results[idx] = getfrom(pid, Data)
    end
    return vcat(Results...)
end

@time P_Data = recombine_data(:data); # 0.003132 seconds

P_Data == data  ## true

SharedArray的使用在这里是多余的。我只是使用它，因为它很容易就地修改，这就是您的代码最初的编写方式。这让我可以根据您编写的内容更直接地工作，而无需对其进行太多修改。

我没有包括在计时赛中恢复数据的步骤，但正如你所看到的，在这种情况下，这是一段非常微不足道的时间。在其他情况下，它可能不那么微不足道，但数据移动只是您面临的并行性问题之一。

通常在进行计时赛时，最好的做法是运行该函数一次(为了编译代码)，然后再次运行它以获取时间。这就是我在这里所做的。

看到这个 SO post我在这里使用的一些函数的灵感是从哪里得到的。

关于matrix - Julia:将 pmap 与数组与 SharedArrays 一起使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39058884/

文章推荐： spring-boot - 如何在计划任务中使用 OAuth2RestTemplate？

文章推荐： ubuntu 14.04 上 php 7 的 xdebug

javascript - 对焦或模糊时的射击功能(一起)
我想要的是能够在输入获得焦点或失去焦点时执行某些操作(两个事件)。我尝试了以下方法，但这按事件单独工作(单独编码时):仅在焦点上，或仅在失去焦点时。另外，我希望它尽可能跨平台(包括触摸设备)，这是
JavaFX TableView 使用分页过滤(一起)
我分别研究了TableView的Filtering和Pagination。过滤: this帖子帮助我满足了我的需要分页: this , this帖子也帮助了我我想像这样将它们组合在一起: 详情-
TDD 和 UML 一起
我是 TDD 方法的新手，所以我想知道是否有人经历过这种机智可以启发我一点。我想获得一些关于如何一起使用 UML 和 TDD 方法的线索。我已经习惯了:用 UML 设计 --> 生成骨架类(然后保持
Docker 入口点和 cmd 一起
我尝试使用入口点和 cmd 设置 Docker。 FROM debian:stretch RUN apt-get update && \ apt install gnupg ca-certificat
Java 泛型与类和接口(interface) - 一起
我想要一个 Class 对象，但我想强制它所代表的任何类扩展类 A 并实现接口(interface) B。我能做到: Class 或者: Class 但我不能两者兼得。有办法做到这一点吗？最佳答案
javascript - WebStorm + RubyMine 一起(？)
我是 Rubymine 的长期用户。 Rubymine 非常适合基于 html 的 Rails 应用程序，但我现在正在做更多的 SPA 客户端工作(例如 javascript/react)。我发现我真
jquery - Prototype 和 jQuery 一起？
我注意到我使用的某个脚本依赖于原型(prototype)。 (Lightbox 2) 它会与 jQuery 在同一页面上一起工作吗？有没有办法确保它们不冲突？最佳答案可以，但你需要采取 speci
Jquery dataTables 和 tablesorter 一起
我需要对表中显示的数据进行分页并通过 ajax 调用获取它 - 这是我通过使用具有以下配置的 dataTables 插件来完成的 - bServerSide : true; sAjaxSource :
c - 归档和 gtk 一起 - 可能吗？
我是 gtk 新手，所以想知道在 C 语言中归档和 gtk 是否可以一起使用？例如，我可以从 .txt 文件中读取，然后在相同的代码中使用 gtk 在标签或其他内容中显示它吗？如果是，怎么办？谢谢!
java - Bck2Brwsr 与 JavaFX 一起？
有没有人设法得到Bck2Brwsr最近与 Java 8/JavaFX 8 一起工作？有没有兼容的机会？我找不到太多关于它的信息，也没有一个好的起点。使用给定的 Maven archetype我遇到了几
python - openid 和 oauth 一起？
在我的应用程序中，用户通过 openid(与 stackoverflow 相同)登录/注销。我想通过 oauth 向第三方应用程序开放我的应用程序。如何创建我的 openid-consumer 应
java - 与 Spring 一起 hibernate
我在启动和运行 Hibernate 和 Spring 时遇到一些问题。我有一个网络服务器项目，它使用了其他几个具有持久实体的项目。我遇到的问题是，对于存储在 WEB-INF/libs 内的另一个 ja
java - @ControllerAdvice 异常处理与@ResponseStatus 一起
我有 @ControllerAdvice 类，它处理一组异常。我们还有一些其他异常，这些异常用 @ResponseStatus 注释进行注释。为了结合这两种方法，我们使用博客文章中描述的技术:http
android - Progressbar 与 asyncTask 一起
我想在屏幕上使用进度条而不是 progressDialog。我在我的 XML View 文件中插入了一个进度条，我想让它在加载时显示并在不加载时禁用它。所以我使用的是可见的，但它发生了，所以其余的
mysql - CONCAT 与 IF ELSE 一起？
CREATE TABLE `users` ( `id` int(11) AUTO_INCREMENT, `academicdegree` varchar(255),
sql - MySQL - Where IN 与 GROUP_CONCAT 一起
IN() 中使用的查询返回:1, 2。然而，整个查询返回 0 行，这是不可能的，因为它们存在。我在这里做错了什么？ SELECT DISTINCT li.auto_id FROM links
javascript - Jade 和 jQuery 一起
亲们，我如何在使用 Jade 生成的表单上实现 jQuery 样式？我想做的是美化表单并使它们可点击。我在 UI 方面很糟糕。期间。我如何在表单上实现这个可选择的方法？ http://jquer
php - Yii 和 Knockout 一起？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
c++ - auto 关键字和 smartpointers 一起？
我可以: auto o1 = new Content; 但不能: std::shared_ptr o1(new Content); std::unique_ptr o1(new Content); 我
java - Firebase 与 sqlite 一起
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this qu

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

matrix - Julia:将 pmap 与数组与 SharedArrays 一起使用