gpt4 book ai didi

设置为无限时的 Python 多处理队列上限为 32768 (2^15)

转载 作者:太空狗 更新时间:2023-10-29 21:06:20 26 4
gpt4 key购买 nike

我有一个包含大约 800000 个元素(小字符串)的列表,这些元素被加载到队列中,然后由多处理池中的不同工作进程使用。我发现在 PyPy 和 Python(分别为 2.7 和 3.6)中,即使我已将 Queue 的 maxsize 显式设置为 0,两种情况下的 Queue 在任何给定时间都限制在 32768 个元素,因此会阻塞在第 32768 个元素上。

为什么会这样?如果 maxsize <= 0,我认为它们应该是无限的?我已经解决了这个 StackOverflow 问题 Python Queue raising Full even when infinite但它是唯一的这种性质。还有什么我可能遗漏的吗?

我已经尝试了一个多处理队列的实现,我在其中加载了一百万个整数,并且 queue.put(val) 方法总是阻塞在第 32768 个值上。

from multiprocessing import Queue
q = Queue(maxsize=0)
for i in range(int(1e7)):
q.put(i)
print(i)

我期望能够将所有 100 万个整数插入到队列中,但事实证明,它无法容纳所有整数,因为它阻塞在第 32768 个整数上。我很想详细说明为什么会发生这种情况,这可能已经在上面链接的其他 StackOverflow 问题中得到了回答,但似乎做出回答的用户询问我们是否使用 32 位Python 发行版,这不是我的情况,因为我在这两种情况下都使用 64 位 Python 发行版,如下所示(对于 2.7.13 的 PyPy,这是我在我的项目中使用的):

Python 2.7.13 (990cef41fe11, Mar 21 2019, 12:15:10)
[PyPy 7.1.0 with GCC 4.2.1 Compatible Apple LLVM 10.0.0 (clang-1000.11.45.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>>> import sys;print("%x" % sys.maxsize, sys.maxsize > 2**32)
('7fffffffffffffff', True)

更新:

我注意到了一些非常有趣的事情。这是在 MacOS 上运行 Queue 时发生的,但我在 Linux 的 docker 容器中运行代码,队列有效地一次加载了所有 800000 个元素!看来这跟 MacOS 有关系。

最佳答案

多处理队列挂起意味着您很可能超过了最大信号量计数;即 OSX 不能算那么高,并隐含地将您限制为 2^15 - 1。

我不确定来源的可靠性/最新程度如何,但这似乎与 osx 的最大值 (https://github.com/st3fan/osx-10.9/blob/master/xnu-2422.1.72/bsd/sys/semaphore.h) 一致

编辑/证明:

明确尝试使用大于 2^15 - 1 的限制失败:

>>> Queue(maxsize=2**15)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/local/Cellar/python/3.7.3/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/context.py", line 102, in Queue
return Queue(maxsize, ctx=self.get_context())
File "/usr/local/Cellar/python/3.7.3/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/queues.py", line 48, in __init__
self._sem = ctx.BoundedSemaphore(maxsize)
File "/usr/local/Cellar/python/3.7.3/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/context.py", line 87, in BoundedSemaphore
return BoundedSemaphore(value, ctx=self.get_context())
File "/usr/local/Cellar/python/3.7.3/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/synchronize.py", line 145, in __init__
SemLock.__init__(self, SEMAPHORE, value, value, ctx=ctx)
File "/usr/local/Cellar/python/3.7.3/Frameworks/Python.framework/Versions/3.7/lib/python3.7/multiprocessing/synchronize.py", line 59, in __init__
unlink_now)
OSError: [Errno 22] Invalid argument

在您的情况下,您已尝试隐式创建无限大小 (<=0) 的队列,但实际情况并非如此,并且应用了 OSX 限制:https://github.com/python/cpython/blob/master/Lib/multiprocessing/queues.py#L37

关于设置为无限时的 Python 多处理队列上限为 32768 (2^15),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56378026/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com