performance - 在 Julia 中并行操作大型常量数据结构-6ren

performance - 在 Julia 中并行操作大型常量数据结构

转载作者：行者123 更新时间：2023-12-01 00:52:55

24

4

我有一个大的字符串向量向量:
大约有 50,000 个字符串向量，
每个包含 2-15 个长度为 1-20 个字符的字符串。
MyScoringOperation是一个函数，它对字符串向量(数据)进行操作并返回一个包含 10100 个分数的数组(作为 Float64s)。运行MyScoringOperation大约需要0.01秒(取决于数据的长度)

function MyScoringOperation(state:State, datum::Vector{String})
      ...
      score::Vector{Float64} #Size of score = 10000

我有什么相当于嵌套循环。
外循环通常会运行 500 次迭代

data::Vector{Vector{String}} = loaddata()
for ii in 1:500 
    score_total = zeros(10100)
    for datum in data
         score_total+=MyScoringOperation(datum)
    end
end

在一台计算机上，在一个 3000(而不是 50,000)的小测试用例上，每个外循环需要 100-300 秒。

我有 3 台安装了 Julia 3.9 的强大服务器(并且可以更轻松地获得 3 台，然后在下一个规模下可以获得数百台)。

我对@parallel 有基本的经验，但是它似乎花了很多时间来复制常量(它或多或少地卡在较小的测试用例上)

看起来像:

data::Vector{Vector{String}} = loaddata()
state = init_state()
for ii in 1:500 

    score_total = @parallel(+) for datum in data
         MyScoringOperation(state, datum)
    end
    state = update(state, score_total)
end

我对这个实现与@parallel 一起工作的方式的理解是:

每个 ii :

分区data每个 worker 一个夹头

把那个夹头发给每个 worker

工作所有处理有块

主程序在结果到达时对结果求和。

我想删除第 2 步，
这样就不用向每个工作人员发送一大块数据，
我只是向每个 worker 发送一系列索引，他们从自己的 data 副本中查找。 .或者甚至更好，只给每个人自己的块，并让他们每次重用它(节省大量 RAM)。

分析支持我对@parellel 功能的看法。
对于类似范围的问题(数据更小)，
非并行版本运行时间为 0.09 秒，
和并行运行
而分析器显示几乎所有的时间都花费了 185 秒。
Profiler 显示，其中几乎 100% 用于与网络 IO 交互。

最佳答案

这应该让你开始:

function get_chunks(data::Vector, nchunks::Int)
    base_len, remainder = divrem(length(data),nchunks)
    chunk_len = fill(base_len,nchunks)
    chunk_len[1:remainder]+=1 #remained will always be less than nchunks
    function _it() 
        for ii in 1:nchunks
            chunk_start = sum(chunk_len[1:ii-1])+1
            chunk_end = chunk_start + chunk_len[ii] -1
            chunk = data[chunk_start: chunk_end]
            produce(chunk)
        end
    end
    Task(_it)
end

function r_chunk_data(data::Vector)
    all_chuncks = get_chunks(data, nworkers()) |> collect;
    remote_chunks = [put!(RemoteRef(pid)::RemoteRef, all_chuncks[ii]) for (ii,pid) in enumerate(workers())]
    #Have to add the type annotation sas otherwise it thinks that, RemoteRef(pid) might return a RemoteValue
end



function fetch_reduce(red_acc::Function, rem_results::Vector{RemoteRef})
    total = nothing 
    #TODO: consider strongly wrapping total in a lock, when in 0.4, so that it is garenteed safe 
    @sync for rr in rem_results
        function gather(rr)
            res=fetch(rr)
            if total===nothing
                total=res
            else 
                total=red_acc(total,res)
            end
        end
        @async gather(rr)
    end
    total
end

function prechunked_mapreduce(r_chunks::Vector{RemoteRef}, map_fun::Function, red_acc::Function)
    rem_results = map(r_chunks) do rchunk
        function do_mapred()
            @assert r_chunk.where==myid()
            @pipe r_chunk |> fetch |> map(map_fun,_) |> reduce(red_acc, _)
        end
        remotecall(r_chunk.where,do_mapred)
    end
    @pipe rem_results|> convert(Vector{RemoteRef},_) |> fetch_reduce(red_acc, _)
end

rchunk_data将数据分成块(由 get_chunks 方法定义)并将这些块分别发送到不同的工作人员，在那里它们存储在 RemoteRefs 中。
RemoteRefs 是对其他进程(以及可能的计算机)上的内存的引用，即
prechunked_map_reduce对一种 map 进行变体减少让每个 worker 首先运行 map_fun在它的每个卡盘元素上，然后使用 red_acc 减少其卡盘中的所有元素。 (减少累加器功能)。最后，每个工作人员返回那里的结果，然后通过使用 red_acc 将它们全部减少在一起来组合这些结果。这次使用 fetch_reduce这样我们就可以添加第一个完成的。
fetch_reduce是一个非阻塞的 fetch 和 reduce 操作。我相信它没有竞争条件，尽管这可能是因为 @async 中的实现细节和 @sync .当 julia 0.4 出来时，很容易加锁以使其明显没有竞争条件。

这段代码并不是真正经过战斗的。我不相信
您可能还想考虑使卡盘大小可调，以便您可以看到更多数据给更快的工作人员(如果有些人有更好的网络或更快的 CPU)

您需要将代码重新表示为 map-reduce 问题，这看起来不太难。

测试:

data = [float([eye(100),eye(100)])[:] for _ in 1:3000] #480Mb
chunk_data(:data, data)
@time prechunked_mapreduce(:data, mean, (+))

花费约 0.03 秒，当分布在 8 个工作器上时(没有一个与启动器在同一台机器上)

vs 只在本地运行:

@time reduce(+,map(mean,data))

花了 ~0.06 秒。

关于performance - 在 Julia 中并行操作大型常量数据结构，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30047182/

24

4

0

文章推荐： perl - 为什么在使用 "given"时会出现语法错误？

文章推荐： jdbc - 多个数据源到 Websphere Liberty Profile

c - 结构 |结构/union 的不完整类型错误
我目前正在尝试基于哈希表构建字典。逻辑是:有一个名为 HashTable 的结构，其中包含以下内容: HashFunc HashFunc; PrintFunc PrintEntry; CompareF
c++ - 如何删除指向(结构/对象)的指针而不破坏(结构/对象)内部的指针？
如果我有一个指向结构/对象的指针，并且该结构/对象包含另外两个指向其他对象的指针，并且我想删除“包含这两个指针的对象而不破坏它所持有的指针”——我该怎么做这样做吗？指向对象 A 的指针(包含指向对象
go - 如何访问该“结构” slice 的新“类型”中的“结构”字段？
像这样的代码 package main import "fmt" type Hello struct { ID int Raw string } type World []*Hell
mysql - 将 CSV 移动到 MySQL 关系数据库的第一步。 CSV 结构!= MySQL 结构
我有一个采用以下格式的 CSV: Module, Topic, Sub-topic 它需要能够导入到具有以下格式的 MySQL 数据库中: CREATE TABLE `modules` ( `id
c++ - 将 POD 结构/结构 vector 复制到 vector 的最优雅方式
通常我使用类似的东西 copy((uint8_t*)&POD, (uint8_t*)(&POD + 1 ), back_inserter(rawData)); copy((uint8_t*)&PODV
apache-spark - Spark : Union can only be performed on tables with the compatible column types. 结构<名称，ID> != 结构
错误 : 联合只能在具有兼容列类型的表上执行。结构(层:字符串，skyward_number:字符串，skyward_points:字符串)<> 结构(skyward_number:字符串，层:字符
条件跳转或移动取决于未初始化的值、结构
我有一个指向结构的指针数组，我正在尝试使用它们进行 while 循环。我对如何准确初始化它并不完全有信心，但我一直这样做: Entry *newEntry = malloc(sizeof(Entry)
C "if"结构
我正在学习 C，我的问题可能很愚蠢，但我很困惑。在这样的函数中: int afunction(somevariables) { if (someconditions)
创建列表的列表(结构)
我现在正在做一项编程作业，我并没有真正完全掌握链接，因为我们还没有涉及它。但是我觉得我需要它来做我想做的事情，因为数组还不够我创建了一个结构，如下 struct node { float coef;
C符号常量+结构
给定以下代码片段: #include #include #define MAX_SIZE 15 typedef struct{ int touchdowns; int intercepti
Checknullarray 结构
struct contact list[3]; int checknullarray() { for(int x=0;x<10;x++) { if(strlen(con
javascript "for (;;);"结构
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Empty “for” loop in Facebook ajax what does AJAX call
C# 结构 "this = ...."
我刚刚在反射器中浏览了一个文件，并在结构构造函数中看到了这个: this = new Binder.SyntaxNodeOrToken(); 我以前从未见过该术语。有人能解释一下这个赋值在 C# 中的
用于命名字符串常量的 Python 结构
我经常使用字符串常量，例如: DICT_KEY1 = 'DICT_KEY1' DICT_KEY2 = 'DICT_KEY2' ... 很多时候我不介意实际的文字是什么，只要它们是独一无二的并且对人类读
用指针初始化 C 结构
我是 C 的新手，我不明白为什么下面的代码不起作用: typedef struct{ uint8_t a; uint8_t* b; } test_struct; test_struct
可以像内置类型一样直接分配常量值的 .NET 结构
您能否制作一个行为类似于内置类之一的结构，您可以在其中直接分配值而无需调用属性？前任: RoundedDouble count; count = 5; 而不是使用 RoundedDouble cou
编译 C 结构
这是我的代码: #include typedef struct { const char *description; float value; int age; } swag
r - 重叠嵌套列表并保留命名/结构
在创建嵌套列表时，我认为 R 具有对列表元素有用的命名结构。我有一个列表列表，并希望应用包含在任何列表中的每个向量的函数。 lapply这样做但随后剥离了列表的命名结构。我该怎么办 lapply嵌套列
个人管理器的 XML 结构
我正在做一个用于学习目的的个人组织者，我从来没有使用过 XML，所以我不确定我的解决方案是否是最好的。这是我附带的 XML 文件的基本结构:
couchdb - PouchDB 结构
我是新来的 nosql概念，所以当我开始学习时 PouchDB ，我找到了这个转换表。我的困惑是，如何PouchDB如果可以说我有多个表，是否意味着我需要创建多个数据库？因为根据我在 pouchdb

首页

博学

6Ren·AI

商城

performance - 在 Julia 中并行操作大型常量数据结构