python - 如何找到理想的并行进程数以使用 python 多处理运行？-6ren

python - 如何找到理想的并行进程数以使用 python 多处理运行？

转载作者：行者123 更新时间：2023-12-02 00:06:12

试图找出正确的并行进程数以运行 python multiprocessing .

以下脚本在 8 核、32 GB (Ubuntu 18.04) 机器上运行。 (下面测试时只有系统进程和基本用户进程在运行。)

使用以下内容测试了 multiprocessing.Pool 和 apply_async:

from multiprocessing import current_process, Pool, cpu_count
from datetime import datetime
import time

num_processes = 1 # vary this

print(f"Starting at {datetime.now()}")
start = time.perf_counter()

print(f"# CPUs = {cpu_count()}") # 8
num_procs = 5 * cpu_count() # 40


def cpu_heavy_fn():
    s = time.perf_counter()
    print(f"{datetime.now()}: {current_process().name}")
    x = 1
    for i in range(1, int(1e7)):
        x = x * i
        x = x / i
    t_taken = round(time.perf_counter() - s, 2)
    return t_taken, current_process().name


pool = Pool(processes=num_processes)

multiple_results = [pool.apply_async(cpu_heavy_fn, ()) for i in range(num_procs)]
results = [res.get() for res in multiple_results]
for r in results:
    print(r[0], r[1])

print(f"Done at {datetime.now()}")
print(f"Time taken = {time.perf_counter() - start}s")

结果如下:

num_processes total_time_taken
1 28.25
2 14.28
3 10.2
4 7.35
5 7.89
6 8.03
7 8.41
8 8.72
9 8.75
16 8.7
40 9.53

以下内容对我来说很有意义:

一次运行一个进程每个进程大约需要 0.7 秒，因此运行 40 次大约需要 28 秒，这与我们上面观察到的一致。
一次运行 2 个进程应该将时间减半，这是在上面观察到的(~14 秒)。
一次运行 4 个进程应该进一步将时间减半，这是在上面观察到的(~7 秒)。
将并行度增加到超过内核数 (8) 应该会降低性能(由于 CPU 争用)，并且观察到(某种程度上)。

没有意义的是:

为什么并行运行 8 的速度不是并行运行 4 的两倍，即为什么不是 ~3.5 秒？
为什么一次同时运行 5 到 8 个比同时运行 4 个更糟糕？有 8 个核心，但为什么整体运行时间更差？ (当并行运行 8 个时，htop 显示所有 CPU 的利用率接近 100%。当并行运行 4 个时，只有 4 个达到 100%，这是有道理的。)

最佳答案

Q : "Why is running 5 to 8 in parallel at a time worse than running 4 at a time?"

好吧，有几个原因，我们将从一个静态的、最容易观察到的原因开始:

由于硅设计(他们为此使用了一些硬件技巧)无法扩展超过 4。

所以最后 Amdahl's Law解释并提升了 +1 的 processors 升级数量的加速是 4，任何下一个 +1 都不会像在 { 2, 3, 4 }-案例:

此 lstopo CPU 拓扑图有助于开始解码为什么(此处针对 4 核，但逻辑与 8 核芯片相同 -在您的设备上运行 lstopo 以在体内查看更多详细信息):

┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────┐
│ Machine (31876MB)                                                                                                 │
│                                                                                                                   │
│ ┌────────────────────────────────────────────────────────────┐                      ┌───────────────────────────┐ │
│ │ Package P#0                                                │  ├┤╶─┬─────┼┤╶───────┤ PCI 10ae:1F44             │ │
│ │                                                            │      │               │                           │ │
│ │ ┌────────────────────────────────────────────────────────┐ │      │               │ ┌────────────┐  ┌───────┐ │ │
│ │ │ L3 (8192KB)                                            │ │      │               │ │ renderD128 │  │ card0 │ │ │
│ │ └────────────────────────────────────────────────────────┘ │      │               │ └────────────┘  └───────┘ │ │
│ │                                                            │      │               │                           │ │
│ │ ┌──────────────────────────┐  ┌──────────────────────────┐ │      │               │ ┌────────────┐            │ │
│ │ │ L2 (2048KB)              │  │ L2 (2048KB)              │ │      │               │ │ controlD64 │            │ │
│ │ └──────────────────────────┘  └──────────────────────────┘ │      │               │ └────────────┘            │ │
│ │                                                            │      │               └───────────────────────────┘ │
│ │ ┌──────────────────────────┐  ┌──────────────────────────┐ │      │                                             │
│ │ │ L1i (64KB)               │  │ L1i (64KB)               │ │      │               ┌───────────────┐             │
│ │ └──────────────────────────┘  └──────────────────────────┘ │      ├─────┼┤╶───────┤ PCI 10bc:8268 │             │
│ │                                                            │      │               │               │             │
│ │ ┌────────────┐┌────────────┐  ┌────────────┐┌────────────┐ │      │               │ ┌────────┐    │             │
│ │ │ L1d (16KB) ││ L1d (16KB) │  │ L1d (16KB) ││ L1d (16KB) │ │      │               │ │ enp2s0 │    │             │
│ │ └────────────┘└────────────┘  └────────────┘└────────────┘ │      │               │ └────────┘    │             │
│ │                                                            │      │               └───────────────┘             │
│ │ ┌────────────┐┌────────────┐  ┌────────────┐┌────────────┐ │      │                                             │
│ │ │ Core P#0   ││ Core P#1   │  │ Core P#2   ││ Core P#3   │ │      │     ┌──────────────────┐                    │
│ │ │            ││            │  │            ││            │ │      ├─────┤ PCI 1002:4790    │                    │
│ │ │ ┌────────┐ ││ ┌────────┐ │  │ ┌────────┐ ││ ┌────────┐ │ │      │     │                  │                    │
│ │ │ │ PU P#0 │ ││ │ PU P#1 │ │  │ │ PU P#2 │ ││ │ PU P#3 │ │ │      │     │ ┌─────┐  ┌─────┐ │                    │
│ │ │ └────────┘ ││ └────────┘ │  │ └────────┘ ││ └────────┘ │ │      │     │ │ sr0 │  │ sda │ │                    │
│ │ └────────────┘└────────────┘  └────────────┘└────────────┘ │      │     │ └─────┘  └─────┘ │                    │
│ └────────────────────────────────────────────────────────────┘      │     └──────────────────┘                    │
│                                                                     │                                             │
│                                                                     │     ┌───────────────┐                       │
│                                                                     └─────┤ PCI 1002:479c │                       │
│                                                                           └───────────────┘                       │
└───────────────────────────────────────────────────────────────────────────────────────────────────────────────────┘

仔细观察，就像调用 hwloc-tool: lstopo-no-graphics -.ascii 一样，显示 < strong>相互处理独立性结束的地方 - 这里是共享 L1-instruction-cache(L3一个是共享的，但位于层次结构的顶部，其大小仅对大型问题解决者造成困扰，而不是我们的情况)

接下来是一个更糟糕的可观察到的原因为什么在 8 进程上更糟:

Q : "Why does running 8 in parallel not twice as fast as running 4 in parallel i.e. why is it not ~3.5s?"

因为热管理。

加载到 CPU 内核上的工作越多，以 ~3.5+ GHz 驱动电子通过硅迷宫时产生的热量就越多。热限制是指那些阻止 CPU 计算能力进一步提高性能的限制，这仅仅是因为物理定律，正如我们所知，不允许超出某些 Material 定义的限制。

接下来会发生什么？
CPU 设计没有规避物理学(这是不可能的)，而是我们，用户 - 通过向我们 promise 具有 ~3.5+ GHz 的 CPU 芯片(但实际上, CPU 只能在很短的时间内使用这个时钟速率 - 直到散发的热量不会使硅接近热极限 - 然后，CPU 将决定降低自己的时钟速率 作为过热防御步骤(这会降低性能，不是吗？)或者一些 CPU 微架构可能会跳(移动处理流程)到另一个，免费的，因此更酷的 CPU 内核(这保证了更高的时钟速率那里(至少在一些小的时间内)但也降低了性能，就像跳跃一样不会在零时间发生，也不会以零成本发生(缓存丢失、重新获取等)

这张图片显示了内核跳跃情况的快照 - 内核 0-19 变得太热并且处于热节流上限之下，而内核 20-39 可以(至少现在)全速运行:

结果？

无论是热约束(将 CPU 浸入液氮池中都曾在“流行”杂志节目中进行过演示，但对于任何可持续计算来说都不是一个合理的选择，因为从深度冷冻状态到低温状态的机械应力6+ GHz 时钟速率 Steam 形成的过热器会使 CPU 主体破裂，并且会在少数工作负载事件中导致 CPU 因破裂和机械疲劳而报废- 由于任何严肃项目的负投资返回率，所以这是一个禁区。

基于体内预测试的良好冷却和适当规模的 worker 池是这里唯一确定的赌注。

其他架构:

关于python - 如何找到理想的并行进程数以使用 python 多处理运行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60532107/

文章推荐： c# - 有没有办法阻止 EF 插入 SQL Server 计算列？

文章推荐： javascript - 如何在单独的行上打印数组的每个元素？

文章推荐： firebase - 以相同文本开头的多个集合的云函数触发器

ios - 如果对主纹理进行 mipmap 处理，是否还需要对多重采样纹理进行 mipmap 处理？
对于 Metal ，如果对主纹理进行 mipmap 处理，是否还需要对多采样纹理进行 mipmap 处理？我阅读了苹果文档，但没有得到任何相关信息。最佳答案 Mipmapping 适用于您将从中
javascript - 让一些路由由 Groovy 处理，另一些由 React-router v4 处理
我正在使用的代码在后端 Groovy 代码中具有呈现 GSP(Groovy 服务器页面)的 Controller 。对于前端，我们使用 React-router v4 来处理路由。我遇到的问题是，通过
jquery - 让客户端 (Javascript) 处理 HTML 比用 C# 处理 HTML 更好吗？
我们正在 build 一个巨大的网站。我们正在考虑是在服务器端(ASP .Net)还是在客户端进行 HTML 处理。例如，我们有 HTML 文件，其作用类似于用于生成选项卡的模板。服务器端获取 HT
java - 处理 - 图像数组错误 - "Type mismatch, ' 处理 .core.PImage' 不匹配.."
我正在尝试将图像加载到 void setup() 中的数组中，但是当我这样做时出现此错误:“类型不匹配，'processing .core.PImage' does not匹配“processing.
javascript - 客户更新请求可通过 POSTMAN 处理，但无法使用 Shopify 私有(private)应用程序通过 AJAX 处理
我正在尝试使用其私有(private)应用程序更新 Shopify 上的客户标签。我用 postman 尝试过，一切正常，但通过 AJAX，它带我成功回调而不是错误，但成功后我得到了身份验证链接，而不
处理 - 更改默认应用程序图标
如何更改我的 Processing appIconTest.exe 导出的默认图标在窗口中的应用程序？默认一个: 最佳答案经过一些研究，我能找到的最简单的解决方案是: 进入 ...\process
处理:如何添加背景音乐
我在 Processing 中做了一个简单的小游戏，但需要一些帮助。我有一个 mp3，想将它添加到我的应用程序中，以便在后台循环运行。这可能吗？非常感谢。最佳答案您可以使用声音库。处理已经自带
处理 - 将一起形成一个圆的多个图像按钮
我有几个这样创建的按钮: 在 setup() PImage[] imgs1 = {loadImage("AREA1_1.png"),loadImage("AREA1_2.png"),loadImage
处理:如何分屏？
我正在尝试使用 Processing 创建一个多人游戏，但无法弄清楚如何将屏幕分成两个以显示玩家的不同情况？就像在 c# 中一样，我们有Viewport leftViewport,rightView
处理如何根据草图中的位置改变颜色？
我一直在尝试使用 Moore 邻域在处理过程中创建元胞自动机，到目前为止非常成功。我已经设法使基本系统正常工作，现在我希望通过添加不同的功能来使用它。现在，我检查细胞是否存活。如果是，我使用 fill
JavaScript 处理
有没有办法用 JavaScript 代码检查资源使用情况？我可以检查脚本的 RAM 使用情况和 CPU 使用情况吗？由于做某事有多种方法，我可能会使用不同的方法编写代码，并将其保存为两个不同的文件，
list - 处理 list
我想弄清楚如何处理这样的列表: [ [[4,6,7], [1,2,4,6]] , [[10,4,2,4], [1]] ] 这是一个整数列表的列表我希望我的函数将此列表作为输入并返回列表中没有重复的整
Flutter 处理 MethodChannel
有没有办法在不需要时处理 MethodChannel/EventChannel ？我问是因为我想为对象创建多个方法/事件 channel 。例子: class Call { ... fields
python - 处理 ConnectionResetError
我有一个关于在 Python3 中处理 ConnectionResetError 的问题。这通常发生在我使用 urllib.request.Request 函数时。我想知道如果我们遇到这样的错误是否可
处理 float 的奇怪问题
我一直在努力解决这个问题几个小时，但无济于事。代码很简单，一个弹跳球(粒子)。将粒子的速度初始化为 (0, 0) 将使其保持上下弹跳。将粒子的初始化速度更改为 (0, 0.01) 或任何十进制浮点数都
python - 处理 : 时遇到错误
我把自己弄得一团糟。我想在我的系统中添加 python3.6 所以我决定在我的 Ubuntu 19.10 中卸载现有的。但是现在每次我想安装一些东西我都会得到这样的错误: dpkg: error w
Rpart - NA 处理
我正在努力解决 Rpart 包中的 NA 功能。我得到了以下数据框(下面的代码) Outcome VarA VarB 1 1 1 0 2 1 1 1
java - 处理/访问磁盘上的文件
我将 Java 与 JSF 一起使用，这是 Glassfish 3 容器。在我的 Web 应用程序中，我试图实现一个文件(图像)管理系统。我有一个 config.properties我从中读取上传
optimization - 处理:如何提高程序的帧率？
所以我一直在Processing工作几个星期以来，虽然我没有编程经验，但我已经转向更复杂的项目。我正在编写一个进化模拟器，它会产生具有随机属性的生物。最终，我将添加复制，但现在这些生物只是在屏幕上漂
Delphi 2009 处理 with
有人知道 Delphi 2009 对“with”的处理有什么不同吗？我昨天解决了一个问题，只是将“with”解构为完整引用，如“with Datamodule、Dataset、MainForm”。

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

python - 如何找到理想的并行进程数以使用 python 多处理运行？

接下来是一个更糟糕的可观察到的原因为什么在 8 进程上更糟:

结果？