gpt4 book ai didi

Python - matplotlib griddata 的多处理

转载 作者:IT老高 更新时间:2023-10-28 21:14:15 24 4
gpt4 key购买 nike

按照我之前的问题 [1] ,我想对 matplotlib 的 griddata 函数应用多处理。是否可以将网格数据拆分为 4 个部分,每个部分用于我的 4 个核心?我需要这个来提高性能。

例如,试试下面的代码,尝试不同的 size 值:

import numpy as np
import matplotlib.mlab as mlab
import time

size = 500

Y = np.arange(size)
X = np.arange(size)
x, y = np.meshgrid(X, Y)
u = x * np.sin(5) + y * np.cos(5)
v = x * np.cos(5) + y * np.sin(5)
test = x + y

tic = time.clock()

test_d = mlab.griddata(
x.flatten(), y.flatten(), test.flatten(), x+u, y+v, interp='linear')

toc = time.clock()

print 'Time=', toc-tic

最佳答案

我在具有 4 个物理 CPU 的 Macbook Pro(即,与 Mac硬件架构也可用于某些用例):

import numpy as np
import matplotlib.mlab as mlab
import time
import multiprocessing

# This value should be set much larger than nprocs, defined later below
size = 500

Y = np.arange(size)
X = np.arange(size)
x, y = np.meshgrid(X, Y)
u = x * np.sin(5) + y * np.cos(5)
v = x * np.cos(5) + y * np.sin(5)
test = x + y

tic = time.clock()

test_d = mlab.griddata(
x.flatten(), y.flatten(), test.flatten(), x+u, y+v, interp='linear')

toc = time.clock()

print('Single Processor Time={0}'.format(toc-tic))

# Put interpolation points into a single array so that we can slice it easily
xi = x + u
yi = y + v
# My example test machine has 4 physical CPUs
nprocs = 4
jump = int(size/nprocs)

# Enclose the griddata function in a wrapper which will communicate its
# output result back to the calling process via a Queue
def wrapper(x, y, z, xi, yi, q):
test_w = mlab.griddata(x, y, z, xi, yi, interp='linear')
q.put(test_w)

# Measure the elapsed time for multiprocessing separately
ticm = time.clock()

queue, process = [], []
for n in range(nprocs):
queue.append(multiprocessing.Queue())
# Handle the possibility that size is not evenly divisible by nprocs
if n == (nprocs-1):
finalidx = size
else:
finalidx = (n + 1) * jump
# Define the arguments, dividing the interpolation variables into
# nprocs roughly evenly sized slices
argtuple = (x.flatten(), y.flatten(), test.flatten(),
xi[:,(n*jump):finalidx], yi[:,(n*jump):finalidx], queue[-1])
# Create the processes, and launch them
process.append(multiprocessing.Process(target=wrapper, args=argtuple))
process[-1].start()

# Initialize an array to hold the return value, and make sure that it is
# null-valued but of the appropriate size
test_m = np.asarray([[] for s in range(size)])
# Read the individual results back from the queues and concatenate them
# into the return array
for q, p in zip(queue, process):
test_m = np.concatenate((test_m, q.get()), axis=1)
p.join()

tocm = time.clock()

print('Multiprocessing Time={0}'.format(tocm-ticm))

# Check that the result of both methods is actually the same; should raise
# an AssertionError exception if assertion is not True
assert np.all(test_d == test_m)

我得到了以下结果:

/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/site-packages/matplotlib/tri/triangulation.py:110: FutureWarning: comparison to `None` will result in an elementwise object comparison in the future.self._neighbors)
Single Processor Time=8.495998
Multiprocessing Time=2.249938

我不太确定是什么导致了 triangulation.py 的“ future 警告”(显然我的 matplotlib 版本不喜欢最初为问题提供的输入值),但无论如何,多处理 < s> 似乎确实实现了 8.50/2.25 = 3.8 的预期加速(编辑:参见评论),这大约是我们期望的机器的 4 倍左右4 个 CPU。并且最后的断言语句也执行成功了,证明这两种方法得到了相同的答案,所以尽管警告信息有些奇怪,但我相信上面的代码是一个有效的解决方案。


编辑:一位评论者指出,我的解决方案以及原作者发布的代码片段都可能使用了错误的方法 time.clock() 来测量执行情况时间;他建议改用 time.time()。我想我也正在接受他的观点。 (深入研究 Python 文档,我仍然不相信即使这个解决方案是 100% 正确的,因为较新版本的 Python 似乎已弃用 time.clock() 以支持 time.perf_counter()time.process_time() 。但无论如何,我同意无论 time.time() 是否绝对是进行此测量的最正确方法,它仍然可能比我以前使用的更正确,time.clock().)

假设评论者的观点是正确的,那么这意味着我认为我测量的大约 4 倍的加速实际上是错误的。

但是,这并不意味着底层代码本身没有正确并行化;相反,这只是意味着在这种情况下并行化实际上并没有帮助;拆分数据并在多个处理器上运行并没有改善任何东西。为什么会这样?其他用户有 pointed out,至少在 numpy/scipy 中,一些函数在多个内核上运行,而有些则没有,对于最终用户来说,试图找出哪些是哪些可能是一个极具挑战性的研究项目。

根据这个实验的结果,如果我的解决方案在 Python 中正确实现了并行化,但没有观察到进一步的加速,那么我建议最简单的可能解释是 matplotlib 可能也在“在后台并行化它的一些函数” ",可以这么说,在编译的 C++ 库中,就像 numpy/scipy 已经做的那样。假设是这种情况,那么这个问题的正确答案将是无法做任何进一步的事情:如果底层 C++ 库一开始就已经在多个内核上静默运行,那么在 Python 中进一步并行化将无济于事。

关于Python - matplotlib griddata 的多处理,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29864707/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com