gpt4 book ai didi

python - 利用 "Copy-on-Write"将数据复制到 Multiprocessing.Pool() 工作进程

转载 作者:太空狗 更新时间:2023-10-29 18:18:32 25 4
gpt4 key购买 nike

我有一些 multiprocessing Python 代码,看起来有点像这样:

import time
from multiprocessing import Pool
import numpy as np

class MyClass(object):
def __init__(self):
self.myAttribute = np.zeros(100000000) # basically a big memory struct

def my_multithreaded_analysis(self):
arg_lists = [(self, i) for i in range(10)]
pool = Pool(processes=10)
result = pool.map(call_method, arg_lists)
print result

def analyze(self, i):
time.sleep(10)
return i ** 2

def call_method(args):
my_instance, i = args
return my_instance.analyze(i)


if __name__ == '__main__':
my_instance = MyClass()
my_instance.my_multithreaded_analysis()

在阅读了其他 StackOverflow 答案中关于内存如何工作的答案后,例如这个 Python multiprocessing memory usage我的印象是,这不会根据我用于多处理的进程数来使用内存,因为它是写时复制的,而且我没有修改 my_instance 的任何属性。但是,当我运行 top 时,我确实看到了所有进程的高内存,它说我的大部分进程都在使用大量内存(这是 OSX 的最高输出,但我可以在 Linux 上复制)。

我的问题基本上是,我是否正确地解释了这一点,因为我的 MyClass 实例实际上在池中是重复的?如果是这样,我该如何防止这种情况发生?我不应该使用这样的结构吗?我的目标是减少计算分析的内存使用。

PID   COMMAND      %CPU  TIME     #TH    #WQ  #PORT MEM    PURG   CMPRS  PGRP PPID STATE
2494 Python 0.0 00:01.75 1 0 7 765M 0B 0B 2484 2484 sleeping
2493 Python 0.0 00:01.85 1 0 7 765M 0B 0B 2484 2484 sleeping
2492 Python 0.0 00:01.86 1 0 7 765M 0B 0B 2484 2484 sleeping
2491 Python 0.0 00:01.83 1 0 7 765M 0B 0B 2484 2484 sleeping
2490 Python 0.0 00:01.87 1 0 7 765M 0B 0B 2484 2484 sleeping
2489 Python 0.0 00:01.79 1 0 7 167M 0B 597M 2484 2484 sleeping
2488 Python 0.0 00:01.77 1 0 7 10M 0B 755M 2484 2484 sleeping
2487 Python 0.0 00:01.75 1 0 7 8724K 0B 756M 2484 2484 sleeping
2486 Python 0.0 00:01.78 1 0 7 9968K 0B 755M 2484 2484 sleeping
2485 Python 0.0 00:01.74 1 0 7 171M 0B 594M 2484 2484 sleeping
2484 Python 0.1 00:16.43 4 0 18 775M 0B 12K 2484 2235 sleeping

最佳答案

任何发送到 pool.map(和相关方法)的东西实际上都没有使用共享的写时复制资源。值为 "pickled" (Python's serialization mechanism) ,通过管道发送到工作进程并在那里进行 unpickled,从头开始重建子进程中的对象。因此,在这种情况下,每个 child 最终都会得到原始数据的写时复制版本(它从不使用它,因为它被告知使用通过 IPC 发送的副本),以及对原始数据的个人重建在 child 中重建,不共享。

如果您想利用 fork 的写时复制优势,您不能通过管道发送数据(或引用数据的对象)。您必须将它们存储在可以通过访问他们自己的全局变量从 child 那里找到的位置。例如:

import os
import time
from multiprocessing import Pool
import numpy as np

class MyClass(object):
def __init__(self):
self.myAttribute = os.urandom(1024*1024*1024) # basically a big memory struct(~1GB size)

def my_multithreaded_analysis(self):
arg_lists = list(range(10)) # Don't pass self
pool = Pool(processes=10)
result = pool.map(call_method, arg_lists)
print result

def analyze(self, i):
time.sleep(10)
return i ** 2

def call_method(i):
# Implicitly use global copy of my_instance, not one passed as an argument
return my_instance.analyze(i)

# Constructed globally and unconditionally, so the instance exists
# prior to forking in commonly accessible location
my_instance = MyClass()


if __name__ == '__main__':
my_instance.my_multithreaded_analysis()

通过不传递 self,您可以避免制作副本,而只需使用写入时复制映射到子对象的单个全局对象。如果您需要多个对象,您可以在创建池之前创建一个全局 listdict 映射到对象的实例,然后传递可以在 pool.map 的参数中查找对象。 worker 函数然后使用索引/键(必须被 pickle 并通过 IPC 发送给 child )在全局字典(也是写时复制映射)中查找值(写时复制映射),所以你复制便宜的信息来查找 child 中昂贵的数据而不复制它。

如果对象很小,即使您不写入它们,它们最终也会被复制。 CPython 是引用计数的,引用计数出现在公共(public)对象头中并不断更新,仅通过引用对象,即使它是逻辑上不可变的引用。因此,小对象(以及分配在同一内存页中的所有其他对象)将被写入,并因此被复制。对于大对象(你的亿元素 numpy 数组),只要你不写入它,大部分就会保持共享,因为标题只占用许多页面之一

在 python 版本 3.8 中更改:在 macOS 上,spawn 启动方法现在是默认方法。参见 mulitprocessing doc . Spawn 没有利用写时复制。

关于python - 利用 "Copy-on-Write"将数据复制到 Multiprocessing.Pool() 工作进程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38084401/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com