multithreading - 如何在 4 核 CPU : 4 threads or 50 threads? 上更快地进行相同的计算-6ren

multithreading - 如何在 4 核 CPU : 4 threads or 50 threads? 上更快地进行相同的计算

转载作者：行者123 更新时间：2023-12-04 10:55:43

28

4

让我们假设我们有固定数量的计算工作，没有阻塞、 sleep 、I/O 等待。工作可以很好地并行化——它由 100M 小而独立的计算任务组成。

什么是 4 核 CPU 的速度更快 - 运行 4 个线程或......比方说 50？为什么第二个变种应该是 slover 以及多少 slover？

正如我所假设的:当您在 4 核 CPU 上运行 4 个重线程而没有其他消耗 CPU 的进程/线程时，调度程序可以根本不在内核之间移动线程；在这种情况下没有理由这样做。 Core0(主 CPU)将负责执行硬件定时器每秒 250 次的中断处理程序(Linux 基本配置)和其他硬件中断处理程序，但其他内核可能不会有任何担心。

上下文切换的成本是多少？为不同的上下文存储和恢复 CPU 寄存器的时间？ CPU 内部的缓存、管道和各种代码预测的东西呢？我们可以说每次切换上下文时，都会伤害 CPU 中的缓存、管道和一些代码解码设施吗？因此，与串行执行相比，在单个内核上执行的线程越多，它们一起执行的工作就越少？

关于多线程环境中的缓存和另一个硬件优化的问题现在对我来说是一个有趣的问题。

最佳答案

正如@Baile 在评论中提到的，这是高度特定于应用程序、系统和环境的。

因此，我不会采取强硬的方法来为每个核心提及 1 个线程。 (或在超线程情况下为 2 个线程/核心)

作为一名经验丰富的共享内存程序员，我从我的经验中看到，最佳线程数(对于 4 核机器)的范围可以从 1 到 64+。

现在我将列举可能导致这个范围的情况:

最佳线程 < 核心数

在某些非常细粒度的并行任务(例如小型 FFT)中，线程的开销是主要的性能因素。在某些情况下，并行化根本没有帮助。在某些情况下，您可以通过 2 个线程获得加速，但在 4 个线程时会向后扩展。

另一个问题是资源争用。即使您有一个高度并行化的任务，可以轻松地跨 4 个内核/线程拆分，您也可能会受到内存带宽和缓存效应的限制。通常，您会发现 2 个线程与 4 个线程一样快。 (就好像非常大的 FFT 经常出现这种情况一样)

最佳线程数 = 内核数量

这是最佳情况。无需在这里解释 - 每个核心一个线程。大多数非内存或 I/O 限制的令人尴尬的并行应用程序都适合这里。

最佳线程数 > 核心数

这就是它变得有趣的地方……非常有趣。你听说过负载不平衡吗？过度分解和窃取工作怎么样？

许多可并行化的应用程序是不规则的——这意味着任务不会分成大小相等的子任务。因此，如果您最终可能将一个大型任务拆分为 4 个不相等的大小，请将它们分配给 4 个线程并在 4 个内核上运行它们......结果？并行性能很差，因为 1 个线程碰巧比其他线程获得了 10 倍的工作量。

这里的一个常见解决方案是将任务过度分解为许多子任务。您可以为它们中的每一个创建线程(所以现在您可以获得线程 >> 核心)。或者您可以使用某种具有固定线程数的任务调度程序。并非所有任务都适合这两种任务，因此，对于 4 核机器，将任务过度分解为 8 或 16 个线程的方法通常会提供最佳结果。

虽然产生更多线程可以带来更好的负载平衡，但开销也会增加。所以通常在某处有一个最佳点。我已经看到 4 个内核上高达 64 个线程。但如前所述，它是高度特定于应用程序的。你需要试验。

编辑:扩展答案以更直接地回答问题...

What is the cost of context switching? The time for store and restore CPU registers for different context?

这非常依赖于环境 - 并且有些难以直接测量。简答: 很贵 This might be a good read.

What about caches, pipelines and various code-prediction things inside CPU? Can we say that each time we switch context, we hurt caches, pipelines and some code-decoding facilities in CPU?

简答: 是当您切换上下文时，您可能会刷新管道并弄乱所有预测器。与缓存相同。新线程很可能会用新数据替换缓存。

不过有一个问题。在线程共享相同数据的某些应用程序中，一个线程可能会为另一个传入线程或共享相同缓存的不同内核上的另一个线程潜在地“加热”缓存。 (虽然很少见，但我以前在我的一台 NUMA 机器上见过这种情况 - 超线性加速:16 核上 17.6 倍!？!？!)

So more threads executing on a single core, less work they can do together in comparison to their serial execution?

取决于，取决于...除了超线程之外，肯定会有开销。但是我读过一篇论文，其中有人使用第二个线程来预取主线程......是的，这很疯狂......

关于multithreading - 如何在 4 核 CPU : 4 threads or 50 threads? 上更快地进行相同的计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/9183476/

28

4

0

文章推荐： c# - 对两个相同类型结构的值求和

文章推荐： types - 将其参数应用于自身的函数？

文章推荐： r - 将包含相同变量的多列折叠为一列

文章推荐： jquery-mobile - 对齐到 jquery mobile 中的一个元素

c++ - if 中的多个语句是否与多个 if 相同？
是 if(a == 0 && b == 0 && c == 0) { return; } 一样 if(a == 0) { return; } if(b == 0) { return; } if(c =
Java继承-如何设置子类实例的值以供其他子类共享(相同)？
我想做这样的事情: Class A Class B extends A Class C extends A B b = new B(); C c = new C(); b->setField("foo
Mysql查询(相同)不同的结果集返回不同的结果顺序
我对 Mysql 世界很天真......:)我试图使用连接从表中查询，我遇到结果集问题...表结构如下下面... VIDEO_XXXXX | Field | Type
java - 相同(？)对象的不同对象引用
我最近问过关于从另一个类获取类的唯一实例的问题。 ( How to get specific instance of class from another class in Java? ) 所以，我正
c++ - 比较两种类型是否为 "literally"相同
假设我们有两种类型 using t1 = int*; using t2 = int*; 我知道 std::is_same::value会给我们true .什么是，或者是否有模板工具可以实现以下目标？
PHP - 为什么比较两个完整的长(相同)字符串比比较每个字符串的第一个字符要快得多？
对于我的一个应用程序，我假设比较 2 个字符串的第一个字符比比较整个字符串是否相等要快。例如，如果我知道只有 2 个可能的字符串(在一组 n 字符串中)可以以相同的字母开头(比如说 'q')，如果是这
c - 相同(重复)代码的时钟周期值不同
我想在我的NXP LPC11U37H主板（ARM Cortex-M0）上分析一些算法，因为我想知道执行特定算法需要多少个时钟周期。我编写了这些简单的宏来进行一些分析： #define START_C
excel - 如何在所有工作表中保持页眉(不是静态页眉)相同？
我在 Excel 中创建了一个宏，它将在 Excel 中复制一个表格，并将行除以我确定的特定数字(默认 = 500 行)，并为宏创建的每个部门打开不同的工作表。使用的代码是这样的: Sub Copy
python - 如果一个字典的值与第二个字典的键和第二个字典值 Python 相同
我想根据第一个字典对第二个字典的值求和。如果我有字典 A 和 B。 A = {"Mark": ["a", "b", "c", "d"], "June": ["e", "a"], "John": ["a
perl - system() 返回的值是否与 "$?"相同？
当我这样做时 system()在 Perl 中调用，我通常根据 perldocs 检查返回码.嗯，我是这么想的。大部分时间 $rc!=0对我来说已经足够了。最近我在这里帮助了两个遇到问题的人syste
javascript - 进度条加载速度与 div 相同
在我的进度条上，我试图让它检测 div 加载速度。如果 div 加载速度很快，我想要实现的目标将很快达到 100%。但进度条的加载速度应该与 div 的加载速度一样快。问题:如何让我的进度条加载
Firebase 服务器时间戳与本地(几乎)相同
当我获得与本地时间相同的时间戳时，firebase 生成的服务器时间戳是否会自动转换为本地时间，或者我错过了什么？ _firestore.collection("9213903123").docume
semantics - OWL 双关语是否将同名的类和个体在语义上视为“相同”？
根据the original OWL definition of OWL DL ，我们不能为类和个体赋予相同的名称(这是 OWL DL 和 OWL Full 之间的明显区别)。 "Punning" i
javascript - 允许两个输入复选框的行为与 jquery 相同
我有两个输入复选框: 尝试使用 jQuery 来允许两个输入的行为相同。如果选中第一个复选框，则选中第二个复选框。如果未检查第 1 个，则不会检查第 2 个。反之亦然。我有代码: $('inpu
java - 相同 Java 文件的编译
可以从不同系统编译两个相同的java文件，但它们都有相同的内容操作系统(Windows 7)，会生成不同的.class文件(大小)？最佳答案是的，您可以检查是否有不同版本的JDK(Java Dev
regex - 正则表达式 - .*$ 与 .* 相同
我正在清理另一个人的正则表达式，他们目前所有的都以结尾 .*$ 那么下面的不是完全一样吗？ .* 最佳答案 .*将尽可能匹配，但默认情况下为 .不匹配换行符。如果您要匹配的文本有换行符并且您处于 MU
TypeScript:与Pick <...>相同，但具有多个字段
我使用 Pick ，但是如何编写可以选择多个字段的通用PickMulti呢？ interface MyInterface { a: number, b: number, c: number
sql - 相同 SQL 查询在一个数据库中运行的时间比在同一服务器下的另一个数据库中运行的时间长
我有一个 SQL 数据库服务器和 2 个具有相同结构和数据的数据库。我在 2 个数据库中运行相同的 sql 查询，其中一个需要更长的时间，而另一个在不到 50% 的时间内完成。他们都有不同的执行计划。
php - 使列与 id 相同
我需要你的帮助，我有一个包含两列的表，一个 id 和 numpos，我希望 id 和 numops 具有相同的结果。例子: $cnx = mysql_connect( "localhost", "r
PHP - 表 ID 相同
如何将相同的列(在本例中按“级别”排序)放在一起？我正在做一个高分，我从我的数据库中按级别列出它们。如果他们处于同一级别，我希望他们具有相同的 ID。但是我不想在别人身上显示ID。只有第一个。这是一

首页

博学

6Ren·AI

商城

multithreading - 如何在 4 核 CPU : 4 threads or 50 threads? 上更快地进行相同的计算