python - multiprocessing.Pool 在关闭/加入后无限期挂起-6ren

python - multiprocessing.Pool 在关闭/加入后无限期挂起

转载作者：行者123 更新时间：2023-11-28 18:56:07

25

4

我有一个不确定的生产问题，其中 multiprocessing.Pool 卡住并且永远不会从 join 返回。

我已经设法将问题减少到这个小例子，并让它在某种程度上可靠地挂起。

工作示例:

#!/usr/bin/env python3
import os
import time
import multiprocessing.pool

def run_task(i):
    print(f'[{os.getpid()}] task({i}) complete')

if __name__ == '__main__':
    tasks = iter(range(10))
    processes = 4

    pool = multiprocessing.pool.Pool(processes=processes, maxtasksperchild=1)
    running = []
    while True:
        try:
            running = [ f for f in running if not f.ready() ]
            avail = processes - len(running)
            if avail:
                for _ in range(avail):
                    i = next(tasks)
                    print(f'[{os.getpid()}] add task({i})')
                    future = pool.apply_async(run_task, ( i, ))
                    running.append(future)
            else:
                time.sleep(0.1)
        except StopIteration:
            print(f'[{os.getpid()}] all tasks scheduled')
            break

    print(f'[{os.getpid()}] close and join pool')
    pool.close()
    pool.join()
    print(f'[{os.getpid()}] all done')

大概是时间问题之一，因为失败是不确定的。因此，我必须循环运行它才能使其挂起(尽管根据我的经验，它会在前几次迭代中的一个上挂起)。

for i in {1..100}; do ./test.py; done

挂起时的输出:

[15243] add task(0)
[15243] add task(1)
[15243] add task(2)
[15243] add task(3)
[15244] task(0) complete
[15245] task(1) complete
[15246] task(2) complete
[15247] task(3) complete
[15243] add task(4)
[15243] add task(5)
[15251] task(4) complete
[15243] add task(6)
[15243] add task(7)
[15252] task(5) complete
[15253] task(6) complete
[15243] add task(8)
[15243] add task(9)
[15243] all tasks scheduled
[15255] task(8) complete
[15256] task(9) complete
[15243] close and join pool     <-- hangs here indefinitely

主进程的gdb回溯:

#0  0x00007fb132b7c6c2 in __GI___waitpid (pid=22857, stat_loc=0x7fff8ef55d5c, options=0) at ../sysdeps/unix/sysv/linux/waitpid.c:30
#1  0x00000000005d10e5 in os_waitpid_impl (module=<optimised out>, options=0, pid=22857) at ../Modules/posixmodule.c:6941
#2  os_waitpid.lto_priv () at ../Modules/clinic/posixmodule.c.h:2995
#3  0x000000000050a84f in _PyCFunction_FastCallDict (kwargs=<optimised out>, nargs=<optimised out>, args=<optimised out>, func_obj=0x7fb132fea0d8) at ../Objects/methodobject.c:234
#4  _PyCFunction_FastCallKeywords (kwnames=<optimised out>, nargs=<optimised out>, stack=<optimised out>, func=<optimised out>) at ../Objects/methodobject.c:294
#5  call_function.lto_priv () at ../Python/ceval.c:4851

子进程的 gdb 回溯:

#0  0x00007fb1328896d6 in futex_abstimed_wait_cancelable (private=0, abstime=0x0, expected=0, futex_word=0x1c68e40) at ../sysdeps/unix/sysv/linux/futex-internal.h:205
#1  do_futex_wait (sem=sem@entry=0x1c68e40, abstime=0x0) at sem_waitcommon.c:111
#2  0x00007fb1328897c8 in __new_sem_wait_slow (sem=0x1c68e40, abstime=0x0) at sem_waitcommon.c:181
#3  0x00000000005ab535 in PyThread_acquire_lock_timed (intr_flag=<optimised out>, microseconds=<optimised out>, lock=<optimised out>) at ../Python/thread_pthread.h:386
#4  PyThread_acquire_lock () at ../Python/thread_pthread.h:595
#5  0x0000000000446bf1 in _enter_buffered_busy (self=self@entry=0x7fb13307aa98) at ../Modules/_io/bufferedio.c:292
#6  0x00000000004ce743 in buffered_flush.lto_priv () at ../Python/thread_pthread.h:416

实现说明:

仅在工作人员可用时安排任务:

每个任务的优先级在等待执行时都可能发生变化，所以我不能在一开始就将所有任务排入队列。

因此 running 列表和检查 AsyncResult.ready 以确定我是否可以执行另一个任务

maxtasksperchild=1:

任务泄漏内存，所以为了在每个任务运行后回收丢失的内存，我作弊并使用 maxtasksperchild=1

观察:

sleep vs 忙碌等待:

有趣的是，如果我将 time.sleep(0.1) 更改为忙等待，挂起就会消失。

wait = time.time() + 0.1
while time.time() < wait:
    pass

是否有可能在父进程 sleep 期间错过来自子进程的信号？

maxtasksperchild=1:

如果我重用原来的子进程，挂起就会消失。

所以这似乎是进程在每个任务完成后被销毁的事实与父级休眠之间的某种相互作用。

作为生产中的快速修复，我已将 sleep 更改为忙碌的等待，但这感觉就像一个丑陋的 hack，我想了解到底是什么导致了挂起。

为什么池永远不会从 join 返回？
为什么忙着等待而不是 sleep “解决”了这个问题？
为什么每次“解决”问题时重用流程而不是创建新流程？

最佳答案

我认为这个问题是有异常(exception)的，从技术上讲它不应该存在并且可能已经在更高版本的 python 中得到修复。

[15243] add task(4)
[15243] add task(5)
[15251] task(4) complete
[15243] add task(6)
[15243] add task(7)
[15252] task(5) complete
[15253] task(6) complete
[15243] add task(8)
[15243] add task(9)
[15243] all tasks scheduled <-- Exception Called but [15254] or task(7) is not completed
[15255] task(8) complete
[15256] task(9) complete
[15243] close and join pool     <-- hangs here indefinitely

在异常调用点发生的事情可能导致 task(7) 进入奇怪的状态，apply_async 允许回调，这意味着 3.6 可能以不稳定的方式创建线程。

阻塞等待意味着你的主进程没有休眠，处理起来可能会更快。检查增加等待时间或使用 apply() 是否有所不同。

我不确定为什么重用“修复”了问题，但可能只是访问时间更快且更容易处理。

关于python - multiprocessing.Pool 在关闭/加入后无限期挂起，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58843576/

25

4

0

文章推荐： python - 对输出文件进行 A-Z 排序

文章推荐：具有一组 div 的图像的 CSS spritesheet

文章推荐： css - 修复网页中的水平滚动

Python multiprocessing 和 multiprocessing.Queue
我正在尝试使用多处理和队列实现生产者-消费者场景；主进程是生产者，两个子进程使用队列中的数据。这在没有任何异常发生的情况下有效，但问题是我希望能够在工作人员死亡时重新启动他们(kill -9 wor
Python multiprocessing RemoteManager 下的一个 multiprocessing.Process
我试图在一个管理进程下启动一个数据队列服务器(这样它以后可以变成一个服务)，虽然数据队列服务器功能在主进程中工作正常，但它在一个进程中不起作用使用 multiprocessing.Process 创建
multiprocessing - Julia 等价于 Python multiprocessing.Pool.map
我的多处理需求非常简单:我从事机器学习工作，有时我需要评估多个数据集中的一个算法，或者一个数据集中的多个算法，等等。我只需要运行一个带有一些参数的函数并获取一个数字。我不需要 RPC、共享数据，什么
python - multiprocessing.Process() 或 multiprocessing.Pool() 会更均匀地分布在核心之间吗？
创建进程池或简单地遍历一个进程以创建更多进程之间有任何区别(以任何方式)吗？这有什么区别？: pool = multiprocessing.Pool(5) pool.apply_async(work
python - multiprocessing.Semaphore 和 multiprocessing.BoundedSemaphore 有什么区别？
multiprocessing.BoundedSemaphore(3) 与 multiprocessing.Sempahore(3) 有何不同？我希望 multiprocessing.Bounded
python - multiprocessing.Pipe 比 multiprocessing.Queue 还要慢？
我尝试通过 multiprocessing 包中的 Queue 对 Pipe 的速度进行基准测试。我认为 Pipe 会更快，因为 Queue 在内部使用 Pipe。奇怪的是，Pipe 在发送大型 n
Python multiprocessing.Queue 与 multiprocessing.manager().Queue()
我有这样一个简单的任务: def worker(queue): while True: try: _ = queue.get_nowait()
python - 为什么我可以将实例方法传递给 multiprocessing.Process，而不是 multiprocessing.Pool？
我正在尝试编写一个与 multiprocessing.Pool 同时应用函数的应用程序。我希望这个函数成为一个实例方法(所以我可以在不同的子类中以不同的方式定义它)。这似乎是不可能的；正如我在其他地方
Python2 : multiprocessing. dummy.Pool 与 multiprocessing.pool.ThreadPool
在 python 2 中，multiprocessing.dummy.Pool 和 multiprocessing.pool.ThreadPool 之间有什么区别吗？源代码似乎暗示它们是相同的。最佳
python - dask.multiprocessing 或 pandas + multiprocessing.pool : what's the difference?
我正在开发一个用于财务目的的模型。我将整个 S&P500 组件放在一个文件夹中，存储了尽可能多的 .hdf 文件。每个 .hdf 文件都有自己的多索引(年-周-分)。顺序代码示例(非并行化): im
python - 在 multiprocessing pool.map_async() 中处理 multiprocessing.TimeoutError
到目前为止，我是这样做的: rets=set(pool.map_async(my_callback, args.hosts).get(60*4)) 如果超时，我会得到一个异常: File "/usr
python - multiprocessing.Pool.apply 和 multiprocessing.Pool.apply_async 的目的
参见下面的示例和执行结果: #!/usr/bin/env python3.4 from multiprocessing import Pool import time import os def in
python - 创建使用 Multiprocessing 和 Multiprocessing.Queues 的 linux 守护进程
我的任务是监听 UDP 数据报，对其进行解码(数据报具有二进制信息)，将解码后的信息放入字典中，将字典转储为 json 字符串，然后将 json 字符串发送到远程服务器(ActiveMQ)。解码和发
multiprocessing - 为什么在 Python3.8+ "fork"中使用 "spawn"有效但使用 `multiprocessing` 失败？
我在 macOS 上工作，最近被 Python 3.8 多处理中“fork”到“spawn”的变化所困扰(参见 doc )。下面显示了一个简化的工作示例，其中使用“fork”成功但使用“spawn”失
python - 为什么 multiprocessing.Queue 有一个小的延迟，而(显然)multiprocessing.Pipe 却没有？
multiprocessing.Queue 的文档指出从项目入队到其腌制表示刷新到底层管道之间存在一点延迟。显然，您可以将一个项目直接放入管道中(它没有说明其他情况，并且暗示情况就是如此)。为什么管
python - 为什么 multiprocessing.Pool 和 multiprocessing.Process 在 Linux 中的表现如此不同
我运行了一些测试代码来检查在 Linux 中使用 Pool 和 Process 的性能。我正在使用 Python 2.7。 multiprocessing.Pool 的源代码似乎显示它正在使用 mul
具有 multiprocessing.Manager 的 Python multiprocessing.Process 对象在 Windows 任务管理器中创建多个多处理分支
我在 Windows Standard Embedded 7 上运行 python 3.4.3。我有一个继承 multiprocessing.Process 的类。在类的 run 方法中，我为进程对
python - 子类 multiprocessing.Process 但不调用 multiprocessing.Process 的 __init__ 方法
我知道multiprocessing.Process类似于 threading.Thread当我子类 multiprocessing.Process 时要创建一个进程，我发现我不必调用 __init_
multiprocessing - 在多处理器系统中禁用中断的过程是什么？
我有教科书声明说在多处理器系统中不建议禁用中断，并且会花费太多时间。但我不明白这一点，谁能告诉我多处理器系统禁用中断的过程？谢谢最佳答案在 x86(和其他架构，AFAIK)上，启用/禁用中断是基于
Python Multiprocessing - 进程数
我正在执行下面的代码并且它工作正常，但它不会产生不同的进程，而是有时所有都在同一个进程中运行，有时 2 个在一个进程中运行。我正在使用 4 cpu 机器。这段代码有什么问题？ def f(values

首页

博学

6Ren·AI

商城