python多处理池并不总是使用所有 worker-6ren

python多处理池并不总是使用所有 worker

转载作者：太空狗更新时间：2023-10-30 01:19:23

24

4

问题:
当向 apply_async 发送 1000 个任务时，它们在所有 48 个 CPU 上并行运行，但有时运行的 CPU 越来越少，直到只剩下一个 CPU 正在运行，只有当最后一个 CPU 完成任务时，所有 CPU 才会再次继续运行每个人都有一个新任务。它不需要等待任何像这样的“任务批处理”..

我的(简化)代码:

from multiprocessing import Pool
pool = Pool(47)
tasks = [pool.apply_async(json2features, (j,)) for j in jsons]
feats = [t.get() for t in tasks]

jsons = [...] 是大约 1000 个已加载到内存并解析为对象的 JSON 的列表。
json2features(json) 对 json 执行一些 CPU 密集型工作，并返回一个数字数组。
此函数可能需要 1 秒到 15 分钟才能运行，因此我使用启发式 s.t. 对 json 进行排序。希望最长的任务在列表中排在第一位，因此最先开始。

json2features 函数还会打印任务何时完成以及花费了多长时间。它全部运行在具有 48 个内核的 ubuntu 服务器上，就像我上面所说的，它开始时很棒，使用了所有 47 个内核。然后随着任务的完成，运行的内核越来越少，起初听起来很正常，但事实并非如此，因为在最后一个内核完成后(当我看到它打印到标准输出时)，所有 CPU 都开始再次运行新任务，这意味着这并不是列表的末尾。它可能会再次做同样的事情，然后在列表的实际末尾再次做同样的事情。

有时它可能只使用一个内核 5 分钟，当任务最终完成时，它会再次开始使用所有内核来处理新任务。 (所以它不会卡在一些 IPC 开销上)

没有重复的 jsons，它们之间也没有任何依赖关系(都是静态的，来自磁盘的新鲜数据，没有引用等)，json2features 调用之间也没有任何依赖关系(没有全局状态或任何东西)除了他们使用相同的终端进行打印。

我怀疑问题是在调用 get 之前，worker 不会被释放，所以我尝试了以下代码:

from multiprocessing import Pool
pool = Pool(47)
tasks = [pool.apply_async(print, (i,)) for i in range(1000)]
# feats = [t.get() for t in tasks]

它确实打印了所有 1000 个数字，即使未调用 get。

我现在已经想不出可能是什么问题了。
这真的是 Pool 的正常行为吗？

非常感谢!

最佳答案

multiprocessing.Pool 依赖于单个 os.pipe 将任务传递给工作人员。

通常在 Unix 上，默认管道大小范围为 4 到 64 Kb。如果您传送的 JSON 很大，您可能会在任何给定时间点堵塞管道。

这意味着，当其中一名工作人员忙于从管道中读取大型 JSON 时，所有其他工作人员都将挨饿。

通过 IPC 共享大数据通常是一种不好的做法，因为它会导致性能不佳。这甚至在 multiprocessing programming guidelines 中带有下划线。 .

Avoid shared state

As far as possible one should try to avoid shifting large amounts of data between processes.

与其在主进程中读取 JSON 文件，不如将文件名发送给工作人员，让他们打开并读取内容。您肯定会注意到性能的提高，因为您也在并发域中移动了 JSON 加载阶段。

请注意，结果也是如此。单个 os.pipe 也用于将结果返回到主进程。如果一个或多个工作人员堵塞了结果管道，那么您将让所有进程等待主要进程将其排出。大的结果也应该写入文件。然后，您可以在主进程上利用多线程来快速从文件中读回结果。

关于python多处理池并不总是使用所有 worker ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47013268/

24

4

0

文章推荐： python - 在 Python 中打开 .h5 文件

文章推荐： c# - C# 是否存储对来自 TPL 的任务的引用

文章推荐： python - 第二次调用 model.fit() 时出现 CNTK 内存不足错误

java - 为什么 double 总是 8 个字节，而 int 总是 4 个字节，即使 int 有更多位数？
我不明白 int 63823 为何比 double 1.0 占用更少的空间。在这个特定实例中，int 中是否没有存储更多信息？最佳答案 I don't understand how an int 6
ios - (总是)在使用加密来验证用户身份时向美国当局报告？
这可能不是一个直接的代码问题，但它是一个经常出现在 SO 上的问题，我发现阅读它非常有用。 App Store - Help answering “Missing Compliance” (using
css - 如何在下拉框顶部显示下拉列表(总是)
我在我们的应用程序中使用 syncfusion 寻呼机和下拉列表请打开以下链接。 https://stackblitz.com/edit/angular-nv6myv?file=src%2Fapp%2
c++ - *新总是错的。总是
以便解释指针和引用in this question我写了这段代码。 MyClass& MyClass::MyInstance() { static MyClass & myLoca
c++ - 协助避免断言......总是!
在 C 和 C++ 中，assert 是一个非常重量级例程，将错误写入 stdout 并终止程序。在我们的应用程序中，我们实现了一个更强大的 assert 替代品，并为其提供了自己的宏。已尽一切努力
c# - 此请求的授权已被拒绝。总是
我已经创建了一个 MVC webApi 项目，现在我想使用身份验证和授权。我想我已经实现了这种安全措施，但由于某种原因，有些事情变糟了，当我编写我的凭据并尝试调用一些 webApi 方法时，显示消息“
javascript - 向函数添加回调 - 总是
我发现自己使用一种奇怪的方式向我的函数添加回调函数，我想知道是否有更通用的方式向函数添加回调函数，最好的情况是我的所有函数都检查最后给定的作为函数的参数，如果是，则将其用作回调。我以前是这样的: v
git - 总是 `git fetch --all` ？
几乎从来没有我只想获取某个 Remote 的情况；我总是想要所有的 Remote 。我认为这将是一个足够常见的用例，git 会考虑它(与他们有 pull.rebase true 的方式相同)。那么，
jQuery .inArray() 总是 true？
我正在尝试使用 inarray 但它总是返回 true？有任何想法吗？ (所有 li 均已显示) $("#select-by-color-list li").hide(); // get the se
lighttpd mod_secdownload 总是 404
我正在尝试为我公司的开发环境设置过期网址。我们使用 lighttpd在此环境中提供上传的文件，我发现 these docs这似乎相当有希望。问题是我似乎根本无法让它工作，而且我有点不知所措，试图找出
Grails 外部配置。无法访问外部变量。总是[:]
我无法让“文件夹”外部变量工作。我总是得到[:]。我正在 Windows 下的 Grails 上进行开发(这就是为什么外部配置文件看起来像 file:C:\path\to/file)。我在另一个项
haskell - `if-then-else`(总是)可以被函数调用替换吗？
这个问题是出于对 PL 如何工作的好奇，而不是其他任何事情。 (它实际上是在查看与 Haskell 不同的 SML 时想到的，因为前者使用按值调用 - 但我的问题是关于 Haskell。) Haske
verilog - 总是 block 中的for循环
我有一个高速缓存内存模块，我希望它是可字寻址的，但有字节的写使能信号。 always @ (posedge clk) begin //stuff... if(write) begin
java - 匿名类*总是*维护对其封闭实例的引用吗？
我正在处理一些代码，其中一个对象“foo”正在创建另一个对象对象“bar”，并向其传递一个Callable。之后 foo 将返回bar，然后我希望 foo 变得无法访问(即:可用于垃圾收集)。我最初
C# 总是 0 个参数
我已将我的程序与此方法相关联: public static void CreateFileAssociation(string extension, string key, string descri
C opendir 总是 NULL
所以我正在进行目录遍历，但我无法让 opendir 按照我想要的方式工作。它总是无法打开我发送的目录，它给出了一些未知的错误。我通常传入 argv[1]，但我放弃了，只是开始硬编码路径。 char *
java - 从不运行 `if` ，总是 `else`
这个问题在这里已经有了答案: How do I compare strings in Java? (23 个回答) 关闭 9 年前。出于某种原因，我的(基本)程序总是打印我为 else 语句保留的
python - 如何将(总是)时间四舍五入到最接近的十位？
我不想冒为此提出破解的风险，因为它涉及 datetime 对象。基本上，我想按如下方式进行转换: 2010-04-21 06:37:53 -> 2010-04-21 06:40:00 2010-08-
C: fgets 总是 NULL
我正在用 C 语言玩文件 I/O。我正在尝试使用 fgets 从一个文件中读取数据并将其输出到另一个文件。问题是它总是返回 NULL，因此没有任何内容被复制到输出文件中。这是我的代码: #includ
C++:不删除对象/总是/内存泄漏吗？
class MyClass { // empty class with no base class }; int main() { MyClass* myClass = new MyC

首页

博学

6Ren·AI

商城

python多处理池并不总是使用所有 worker