gpt4 book ai didi

python - 并行化 python 代码中的内存共享

转载 作者:太空宇宙 更新时间:2023-11-03 19:15:09 25 4
gpt4 key购买 nike

我是一名大学新生,也是 Python 新手,所以请耐心等待。我正在尝试并行化一些矩阵运算。这是我使用 ParallelPython 模块的尝试:

 def testfunc(connectionMatrix, qCount, iCount, Htry, tStepCount):
test = connectionMatrix[0:qCount,0:iCount].dot(Htry[tStepCount-1, 0:iCount])
return test

f1 = job_server.submit(testfunc, (self.connectionMatrix, self.qCount, self.iCount, self.iHtry, self.tStepCount), modules = ("scipy.sparse",))
f2 = job_server.submit(testfunc, (self.connectionMatrix, self.qCount, self.iCount, self.didtHtry, self.tStepCount), modules = ("scipy.sparse",))
r1 = f1()
r2 = f2()
self.qHtry[self.tStepCount, 0:self.qCount] = self.qHtry[self.tStepCount-1, 0:self.qCount] + self.delT * r1 + 0.5 * (self.delT**2) * r2

似乎存在一条正态曲线,x 轴为矩阵大小,y 轴为加速百分比。在 100x100 矩阵上,速度似乎会提高 30%。较小和较大的矩阵会导致较少的增加,并且在矩阵足够小和足够大的情况下,串行代码会更快。我的猜测是问题出在参数的传递上。复制大型矩阵的开销实际上比作业本身花费的时间还要长。我能做些什么来解决这个问题?有没有某种方法可以合并内存共享和通过引用传递矩阵?正如您所看到的,没有任何参数被修改,因此它可以是只读访问。

谢谢。

最佳答案

嗯,ParallelPython 的要点在于,您可以编写不关心代码是否分布在线程、进程甚至多台计算机上的代码,而使用内存共享会破坏这种抽象。

一种选择是使用共享文件系统上的文件之类的东西,您可以在每个工作线程中映射该文件。当然,这更复杂,并且它是好是坏将取决于有关文件系统、共享协议(protocol)和网络的许多细节,但它是一个选项。

如果您愿意放弃分布式处理的选项,则可以使用 multiprocessing.Array(或 multiprocessing、Value 或 multiprocessing.sharedctypes)来访问共享内存。但此时,您可能需要考虑仅使用多处理而不是 ParallelPython 来进行作业分配,因为多处理是标准库的一部分,并且具有更强大的 API,并且您明确放弃了 ParallelPython 的一个主要优势.

或者您可以将这两个选项结合起来,在很多方面都是最糟糕的,但就您需要更改现有代码的程度而言,这可能是最好的:只需使用本地文件并映射它。

但是,在执行任何操作之前,您可能需要考虑进行分析以查看复制矩阵是否确实是瓶颈。而且,如果是,您可能需要考虑是否有算法修复,只需复制每个作业所需的部分,而不是复制整个矩阵。 (当然,这是否有意义取决于每项工作所需的部分是否明显少于整个工作。)

关于python - 并行化 python 代码中的内存共享,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11571562/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com