gpt4 book ai didi

python - 在 python 多处理工作池中使用初始化

转载 作者:行者123 更新时间:2023-12-02 08:32:39 25 4
gpt4 key购买 nike

我正在研究工作人员的 multiprocessing.Pool,试图用某种状态初始化工作人员。该池可以接受可调用的初始化,但不会传递对已初始化工作线程的引用。我见过的几个例子利用它调用全局变量,这看起来真的很讨厌。

有什么好方法使用 multiprocessing.Pool 初始化工作状态吗?

编辑:示例:

我有工作人员,每个工作人员都会进行一些相对昂贵的初始化(绑定(bind)到套接字),我不想每次都这样做。我可以手动初始化套接字,然后在分配工作时将它们传入,但是跨进程共享文件描述符即使不是不可能,也是很复杂的。因此,每次我想要处理请求时,我都必须初始化并绑定(bind)。

最佳答案

从技术上讲,正确的做法是将初始化函数的结果作为参数传递给工作线程执行的每个函数。

在这种情况下,拥有全局变量也是正确且安全的,因为通过构造它们会导致私有(private)对象生活在不同进程的单独域中。

我的一般建议是使用合理的 reentrant 构建函数编程风格,并在利用多处理功能时允许全局变量。

保留您的示例,以下 send 函数需要一些上下文(在本例中为套接字):

def send(socket, data):
pass # ... your code here
return dust

为方便起见,初始化代码和工作线程执行的基本代码将依赖全局变量。

socket = None
def init(address, port):
global socket
socket = magic(address, port)

def job(data):
global socket
assert socket is not None
return send(socket, data)

pool = multithreading.Pool(N, init, [address, port])
pool.map(job, ['foo', 'bar', 'baz'])

通过以这种方式编码,无需多处理即可对其进行测试变得简单而自然。您可以将全局状态视为一个完全安全的上下文胶囊。

为了方便起见,请记住多处理不太擅长发送复杂的数据(例如回调)。最好的方法是发送简单的数据片段(字符串、列表、字典、collections.namedtuple ...)并在工作端重建复杂的数据结构(使用初始化函数)。

关于python - 在 python 多处理工作池中使用初始化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9944370/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com