python - 使用 Python 多处理的高内存使用率-6ren

python - 使用 Python 多处理的高内存使用率

转载作者：IT老高更新时间：2023-10-28 21:49:17

26

4

我看过几篇关于使用 Python 多处理模块的内存使用的帖子。然而，这些问题似乎并没有回答我在这里遇到的问题。我发布我的分析，希望有人可以帮助我。

问题

我正在使用多处理并行执行任务，我注意到工作进程的内存消耗无限增长。我有一个小的独立示例，应该可以复制我注意到的内容。

import multiprocessing as mp
import time

def calculate(num):
    l = [num*num for num in range(num)]
    s = sum(l)
    del l       # delete lists as an  option
    return s

if __name__ == "__main__":
    pool = mp.Pool(processes=2)
    time.sleep(5)
    print "launching calculation"
    num_tasks = 1000
    tasks =  [pool.apply_async(calculate,(i,)) for i in range(num_tasks)]
    for f in tasks:    
        print f.get(5)
    print "calculation finished"
    time.sleep(10)
    print "closing  pool"
    pool.close()
    print "closed pool"
    print "joining pool"
    pool.join()
    print "joined pool"
    time.sleep(5)

系统

我正在运行 Windows，我使用任务管理器来监控内存使用情况。我正在运行 Python 2.7.6。

观察

我总结了下面 2 个工作进程的内存消耗。

+---------------+----------------------+----------------------+
|  num_tasks    |  memory with del     | memory without del   |
|               | proc_1   | proc_2    | proc_1   | proc_2    |
+---------------+----------------------+----------------------+
| 1000          | 4884     | 4694      | 4892     | 4952      |
| 5000          | 5588     | 5596      | 6140     | 6268      |
| 10000         | 6528     | 6580      | 6640     | 6644      |
+---------------+----------------------+----------------------+

在上表中，我尝试更改任务数并观察在所有计算结束时以及在 join-ing pool 之前消耗的内存。 'del' 和 'without del' 选项分别是我是否取消注释或注释 calculate(num) 函数内的 del l 行。计算前内存消耗在4400左右。

看起来手动清除列表会降低工作进程的内存使用量。我认为垃圾收集器会处理这个问题。有没有办法强制垃圾回收？
令人费解的是，随着任务数量的增加，两种情况下的内存使用量都在不断增长。有没有办法限制内存使用？

我有一个基于此示例的流程，旨在长期运行。我观察到这个工作进程在通宵运行后占用了大量内存(~4GB)。做一个 join 来释放内存不是一种选择，我试图找出一种没有 join-ing 的方法。

这似乎有点神秘。有没有人遇到过类似的事情？我该如何解决这个问题？

最佳答案

我做了很多研究，但找不到解决问题本身的解决方案。但是有一个不错的解决方法可以以很小的成本防止内存爆裂，尤其是在服务器端长时间运行的代码上。

解决方案本质上是在完成固定数量的任务后重新启动单个工作进程。 python 中的 Pool 类将 maxtasksperchild 作为参数。您可以指定 maxtasksperchild=1000 从而限制在每个子进程上运行 1000 个任务。达到 maxtasksperchild 数字后，池会刷新其子进程。为最大任务使用一个谨慎的数字，可以平衡消耗的最大内存与与重新启动后端进程相关的启动成本。 Pool 构造如下:

pool = mp.Pool(processes=2,maxtasksperchild=1000)

我将我的完整解决方案放在这里，以便对其他人有用!

import multiprocessing as mp
import time

def calculate(num):
    l = [num*num for num in range(num)]
    s = sum(l)
    del l       # delete lists as an  option
    return s

if __name__ == "__main__":

    # fix is in the following line #
    pool = mp.Pool(processes=2,maxtasksperchild=1000)

    time.sleep(5)
    print "launching calculation"
    num_tasks = 1000
    tasks =  [pool.apply_async(calculate,(i,)) for i in range(num_tasks)]
    for f in tasks:    
        print f.get(5)
    print "calculation finished"
    time.sleep(10)
    print "closing  pool"
    pool.close()
    print "closed pool"
    print "joining pool"
    pool.join()
    print "joined pool"
    time.sleep(5)

关于python - 使用 Python 多处理的高内存使用率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21485319/

26

4

0

文章推荐： javascript - 构建 Node.js 和 AngularJS 应用程序

文章推荐： android - 模拟器的时钟与主机系统时钟不匹配

文章推荐： C# Web - 本地主机 :port works, 127.0.0.1:port 不起作用

sql-server - SQL Server 100% CPU 使用率 - 一个数据库显示比其他数据库高的 CPU 使用率
我们有一个 SQL 服务器，其中包含大约 40 个不同的数据库(每个数据库大约 1-5GB)。该服务器是8核2.3G CPU和32Gigs RAM。 27Gig 固定到 SQL Server。 CPU
java - 限制 java8 并行流的 CPU 使用率/Java 8 并行流的高 CPU 使用率
我通过创建一个简单的循环并在数组中添加元素来测试 Java 8 并行流 API 的性能。与非并行相比，我获得了巨大的性能提升。但是当我检查我的任务管理器时，我看到了一个不受控制的 CPU 使用率，
java - CPU 使用率
我在使用 JFX 应用程序时遇到了一些问题。在我的本地开发系统(Linux)上，我的应用程序的 CPU 使用率约为 0-2%。当我在客户 Windows 虚拟机系统上安装并运行我的应用程序时，CPU
Linux CPU 使用率
我在 unix 上工作。我想知道进程当前的 cpu 使用情况。我知道 ps 给出了在进程启动之前使用的 cpu 平均值 - 这不是当前使用情况。有没有办法从 top 命令只打印 cpu 而无需 10
python - 如何使此任务提高 cpu 使用率？
我尝试对许多文件进行哈希处理，但它没有使用满 CPU 能力。它只消耗25％。我测试将繁重的进程移动到线程中。但仍然没有什么不同。我来自 nodejs 使用 sharp 库。有同样的任务。它消耗所有的C
performance - CentOS CPU 使用率
有没有办法在 CentOS 中获取 CPU 使用率？我需要解析这些信息并将其从 Perl 脚本中绘制出来，因此它最好是一个简单的工具，可以打印出一个单一的输出。最佳答案更简单，看/proc/loa
ubuntu - 监控和降低高 CPU 使用率
早上好。目前我正在 Ubuntu 服务器 11.10 中运行 Java Web 应用程序。对于我的 Java 应用程序，我使用的是 apache、tomcat 和 mysql。在过去的几周里，我的
Ocaml:获取进程的 CPU 使用率
我想做的事我有一个计算密集型 OCaml 应用程序，我希望它在后台运行而不影响正常的计算机使用。我想为用户提供两个选项: (1) 应用程序仅在 CPU 使用率几乎为 0% 时运行； (2) 应用程序
Couchdb 100% CPU 使用率
我使用Couchdb创建了一个私有(private)NPM镜像，但我发现beam.smp将我的 CPU 使用率保持在 100%，有没有办法降低它，比如 50%？非常感谢你。最佳答案您不能直接限制
Docker 容器使用不同的工具显示不同的 CPU 使用率
我正在 docker 容器内构建一个项目，在创建容器时没有任何资源限制。当我监控它时，我看到了不同的 CPU 使用率结果。来自 ctop 来自 Grafana(全节点导出器图表) 来自 cAdvis
Firefox 插件 CPU 使用率
我需要在 Web 开发编码 session 期间收集有关 Firefox CPU 使用率的数据，我想知道是否可以监视特定 firefox 插件的 CPU 使用率。现在我正在使用 windows 的
R:如何检查可用内核数/CPU 使用率
R 是单线程的。使用 R，如何检查 Windows 和 Linux 中有多少内核/线程正在运行 R？ (或运行了多少卢比) 使用 R，如何检查 Windows 和 Linux 中运行 R 的每个内核
kubernetes - 水平自动缩放器不报告 CPU 使用率
我正在尝试像示例中那样测试 Kubernetes HPA here kubectl run php-apache --image=gcr.io/google_containers/hpa-exampl
Coldfusion 持续高 CPU 使用率
在我们的办公室，我们有一个开发服务器:Win 2k8 server R2 - Coldfusion 9(.0.0) - MySQL 5 ... 几乎每天早上上类时，我都会发现服务器的 CPU 为 50
c# - 获取线程 Cpu 使用率
我有一组 cpu 消耗执行，每个执行都在低优先级的线程中运行。这些线程将在一个进程(如 IIS)中运行，该进程具有许多我不想减慢它们速度的其他线程。我想计算所有其他线程的 cpu 使用率，如果它大于
Azure 云辅助角色没有获得足够的 CPU 使用率
我是 azure 云的新手，我已经部署了我的第一个辅助角色。在我的本地系统中需要 30 分钟才能完成的过程在 azure 辅助角色上需要 1 个多小时。为了查找问题，我已访问辅助角色的远程桌面。我
c++ - boost tribool 使用率
这是我的测试 boost::tribool 示例: #include #include "boost/logic/tribool.hpp" int main() { boost::logic::tr
Docker 容器 CPU 使用率
我正在使用 docker 远程 API 来检索正在运行的容器的统计信息。对于 CPU 使用情况，我得到的例子是: "cpu_stats": { "cpu_usage": { "to
Azure 云辅助角色没有获得足够的 CPU 使用率
我是 azure 云的新手，我已经部署了我的第一个辅助角色。在我的本地系统中需要 30 分钟才能完成的过程在 azure 辅助角色上需要 1 个多小时。为了查找问题，我已访问辅助角色的远程桌面。我
loops - 为什么意外的无限循环会增加 CPU 使用率？
我知道意外的无限循环通常会导致 CPU 使用率较高。但是，我不太明白为什么。谁能给我解释一下吗？最佳答案 CPU 在执行该循环(永远不会结束)时无法执行任何其他操作。即使您使用的是抢占式多任务系统(

首页

博学

6Ren·AI

商城

python - 使用 Python 多处理的高内存使用率

问题

系统

观察