- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我们在使用 Python Celery(使用多处理)时遇到了一个问题,其中大型定期(计划)任务会在短时间内消耗大量内存,但因为工作进程在池的整个生命周期中都存在 ( MAX_TASKS_PER_CHILD=None
),内存不会被垃圾回收(即它被“高水位”保留)。
(Heroku 使这个问题进一步恶化,它会分配大量且恒定的内存,并将其转换为交换,从而降低性能。)
我们发现通过设置MAX_TASKS_PER_CHILD=1
,我们在每个任务之后 fork 一个新进程(Celery 工作实例),并且内存被正确地垃圾收集。甜甜的!
但是,有很多文章提出了相同的解决方案,但我没有发现任何缺点。在每项任务之后 fork 一个新流程有哪些潜在的缺点?
我的猜测是:
1. CPU 开销(但可能很小)
2. fork 时可能出现的错误(但我找不到任何相关文档)
最佳答案
除了重复 fork 导致 CPU 开销明显增加(如果工作线程为每个任务完成足够的工作,这没什么大不了的)之外,一个可能的缺点是父进程的大小继续增长。如果是这样,它会增加所有子进程的大小(这些子进程正在 fork 一个越来越大的父进程)。这并不重要(大概会写入很少的内存,因此需要很少的复制,实际内存使用不会成为主要问题),但是 IIRC,Linux 过度使用启发法假设 COW 内存最终会被复制,即使您实际上远没有超出私有(private)页面的启发式限制,您也可以调用 OOM killer 。
在 Python 3.4 及更高版本上,您可以通过显式 setting your multiprocessing
start method to forkserver
来避免此问题在程序启动时(在执行工作程序不依赖的任何工作之前),这将从一个单独的服务器进程中 fork 工作程序,该进程的大小不应显着增加。
注意:上面我说过“大概会写入很少的内存,因此需要很少的复制,实际的内存使用不会是一个主要问题”,但这对 CPython 来说是一个谎言。一旦循环垃圾收集器运行,所有可能参与引用循环的对象的引用计数(例如所有容器类型,但不是像 int
和 float
这样的简单基元) >) 被感动了。这样做会导致包含它们的页面被复制,因此您实际上消耗了父级和子级中的内存。
在 3.4 中,对于长时间运行的子进程没有好的解决方案,唯一的选择是:
MAX_TASKS_PER_CHILD=1
,这样即使进程确实执行 COW 副本,它们也会快速退出并被新的进程所取代,这些新进程与父进程相关联,并且不会自行消耗内存。也就是说,从 3.7 开始,当您自己手动启动进程(或负责创建池)时,还有第三种选择:
import gc
在文件顶部,并在尽可能初始化之后,但在创建第一个 Process
或 Pool
对象,运行:
gc.freeze() # Moves all existing tracked objects to permanent generation,
# so they're never looked at again, in parent or child
The gc.freeze
docs进一步建议尽快在父级中禁用 GC,在 fork
之前卡住,并在子级中重新启用 gc
,以避免其他 pre 触发 COW。 -fork
垃圾回收留下的内存间隙可以通过触发 COW 的新分配来填充(您在父级中泄漏了一些内存,以换取最大限度地减少子级中的取消共享),因此更完整的解决方案可能看起来像:
# Done as early as possible in the parent process to minimize freed gaps
# in shared pages that might get reused and trigger COW
gc.disable() # Disables automatic garbage collection
# Done immediately before forking
gc.freeze() # Moves all existing tracked objects to permanent generation so GC
# never touches them
with multiprocessing.Pool(initializer=gc.enable) as pool: # Reenables gc in each
# worker process on launch
# Do stuff with pool
# Outside with block, done with pool
gc.enable() # Optionally, if you never launch new workers,
# reenable GC in parent process
您可以在CPython bug #31558上阅读有关此功能的基本原理和预期用例的更多信息。 ,它描述了问题,创建了 gc.freeze
(和相关函数)并解释了预期的用例。
关于python - 多处理: fork 的缺点?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41745319/
我目前正在尝试编写一个函数,它将一个新元素添加到列表顶部,并将列表的其余部分推回...任何人都可以帮助我吗?当我尝试编译和运行我的程序时,它不起作用。它无限循环。有什么帮助吗? #include #
我有时在程序中使用表情符号来突出显示代码的某些部分(在开源库中)。每个脚本我很少使用超过 5-6 个,而且我发现它们在文本编辑器中的颜色确实很突出。 通常,它们是 transient 标记,并且会在与
假设我有一个像这样的(有点人为的组件) const ExampleComponent = (props) => { const renderList = () => {
谁能告诉我在 WPF 中使用命令与事件的优点是什么?命令或事件是否会遇到内存泄漏?什么是最快的方法。它们的缺点是什么? 最佳答案 与事件处理程序相比,命令具有两个主要优点: 命令未链接到调用者,所以相
我应该使用什么?或者是否有特殊场合我应该使用其中一种而不是另一种? 最佳答案 对于更高维度,K 图不一定失败。问题在于,对五个以上的变量进行可视化非常困难。 4 变量 K 图是二维的并且易于可视化。第
在使用kubernetes部署我的应用程序和数据库容器时,我试图了解以下体系结构的优缺点。 背景知识:该应用程序位于Nginx代理后面。所有请求都从代理流向Web服务器。 Web服务器是唯一有权访问(
有多种脚本环境可用于 .NET 应用程序(例如 this post)。 我的问题是,使用它们各自的优缺点是什么? 示例包括(但不限于) PowerShell IronPython 路亚 JavaScr
以下是我在访问资源文件时看到的 3 个选项。由于可能存在异常(exception)情况,选项 1 可能是最不推荐的,因此问题实际上与选项 2 或选项 3 相关,即哪个是首选或推荐的实现。 选项 1 -
Effective Java - Item-2 states, a JavaBean may be in an inconsistent state partway through its const
我不希望每次旋转设备时都重新创建我的 Activity,所以我将 android:configChanges="keyboardHidden|orientation"标签放在我的 list 文件中。
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 8 年前。 Improv
我有一个工作分配方案,其中每个单元都进行一些簿记和管理,并将任务传递给订单链中的下一个单元,例如;假设有 3 个类:老板、经理、 worker class Boss { void do_asy
创建一个包含字段 A、B、C 的唯一键然后创建另一个包含字段 C、B、A 的唯一键是否有缺点,因此 MySQL 将在仅使用 A 和仅使用 A 进行搜索的情况下利用索引C? 最佳答案 您不想创建额外的复
我对 JavaScript 中的原型(prototype)设计和构造函数很陌生。我看到有人这样声明构造函数: var Person = (function(){ function Person
假设我有一个 json 数据对象,我想将其解析为我自己的对象。我遇到过两种方法。第一种是像这样使用初始化程序: class DataModelOne { let firstProperty: S
在c++中我们可以调用一个类的方法而不用实例化它。比如; MyClass mc; mc.method(); 在不实例化类的情况下使用类方法的优点和缺点是什么?我们什么时候应该使用这种类型? 最佳答案
我需要更好地了解 web 开发,尤其是 CSS 的工作原理。我从事 Web 开发已有大约 2 年了,我认为现在是时候了解如何优化我网站的性能了。我想问的事情不多。 首先: 每当我的页面上有标签内容时,
代码如下: .thumbnail { float:left; width:110px; height:90px; margin:5px; }
上下文:数据库规范化,我正在创建一个表:UserInvolvement。User 可以通过多种方式(基于角色和其他方式)参与另一个实体:Foo。在当前情况下,每种类型的参与都作为单独的列添加到 Foo
按照目前的情况,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the
我是一名优秀的程序员,十分优秀!