gpt4 book ai didi

python - 将函数或类实例传递给 multiprocessing.Process 的 "target"参数是否安全,而没有密集复制的风险?

转载 作者:太空宇宙 更新时间:2023-11-04 00:09:09 25 4
gpt4 key购买 nike

我想知道是否可以将另一个类的函数作为参数传递给 multiprocessing.Process 的实例,该类具有大量导入且非常密集?请注意,我将在基于 Unix 的机器上运行此代码,因此 Processfork 而不是 spawn。这是一个例子:

#class1.py
from class3 import Class3
class Class1(object):
def __init__(self):
self.class3Instance = Class3()

def func1(self):
self.class3Instance.func3()

#class3.py
import numpy as np
import pandas
import cv2 # OpenCV library
# there are many other things that I am importing here

class Class3(object):
def __init__(self):
pass

def func3(self):
np.random.seed(1)
print ('func3 changed the random seed')

#class2.py
import numpy as np
class Class2(object):
def __init__(self):
pass

def func2(self, funcInput):
funcInput()

#main.py
from class1 import Class1
from class2 import Class2

class1Instance = Class1()
class2Instance = Class2()
from multiprocessing import Process

class2Process = Process(target=class2Instance.func2, kwargs={'funcInput': class1Instance.func1})
class2Process.start()
class2Process.join()

这个例子似乎适用于如此小的规模,但我担心 multiprocessing.Process 在这种情况下将无法正确地 fork 事情,而是尝试制作层次结构中类的密集副本。我不希望出现这种情况。这是一个有效的论点吗?

最佳答案

multiprocessing.Process,在 fork 模式下使用,不需要 pickle 绑定(bind)方法(这需要 pickle 实例),因此前期工作最少支付的费用。这个 AFAICT 没有记录在案的保证,但是 CPython 使用 fork 的实现没有这样做,而且他们没有理由这样做,所以我看不到他们在没有任何好处的情况下取消该功能

也就是说,CPython 的引用计数设计(使用循环垃圾收集器来处理引用计数的失败)的本质是所有 Python 对象的对象头都会间歇性地被触及,这将导致任何包含小的页面对象被复制,因此虽然实际执行序列化/反序列化循环所涉及的 CPU 工作不会发生,但长时间运行的 Process 通常最终会与父进程共享几个页面。

另请注意,在 fork 模式下,multiprocessing.Process 是您唯一能从中受益的时间。 forkserverspawn 启动方法不会获取父页面的写时复制副本,因此无法受益,并且 multiprocessing.Poolapply/apply_async 和各种类似 map 的函数 always pickle 函数被调用和它的参数(因为工作进程不知道它们在 fork 时会被要求运行什么任务,并且对象可能在 fork 后发生了变化,所以它总是每次都会重新选择它们)。

关于python - 将函数或类实例传递给 multiprocessing.Process 的 "target"参数是否安全,而没有密集复制的风险?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53074220/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com