浅谈C++性能榨汁机之伪共享-6ren

浅谈C++性能榨汁机之伪共享

转载作者：qq735679552 更新时间：2022-09-27 22:32:09

26

4

CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界.

这篇CFSDN的博客文章浅谈C++性能榨汁机之伪共享由作者收集整理，如果你对这篇文章有兴趣，记得点赞哟.

前言

在多核并发编程中，如果将互斥锁的争用比作“性能杀手”的话，那么伪共享则相当于“性能刺客”。“杀手”与“刺客”的区别在于杀手是可见的，遇到杀手时我们可以选择战斗、逃跑、绕路、求饶等多种手段去应付，但“刺客”却不同，“刺客”永远隐藏在暗处，伺机给你致命一击，防不胜防。具体到我们的并发编程中，遇到锁争用影响并发性能情况时，我们可以采取多种措施（如缩短临界区，原子操作等等）去提高程序性能，但是伪共享却是我们从所写代码中看不出任何蛛丝马迹的，发现不了问题也就无法解决问题，从而导致伪共享在“暗处”严重拖累程序的并发性能，但我们却束手无策.

缓存行

为了进行下面的讨论，我们需要首先熟悉缓存行的概念，学过操作系统课程存储结构这部分内容的同学应该对存储器层次结构的金字塔模型印象深刻，金字塔从上往下代表存储介质的成本降低、容量变大，从下往上则代表存取速度的提高。位于金字塔模型最上层的是CPU中的寄存器，其次是CPU缓存（L1，L2，L3），再往下是内存，最底层是磁盘，操作系统采用这种存储层次模型主要是为了解决CPU的高速与内存磁盘低速之间的矛盾，CPU将最近使用的数据预先读取到Cache中，下次再访问同样数据的时候，可以直接从速度比较快的CPU缓存中读取，避免从内存或磁盘读取拖慢整体速度.

CPU缓存的最小单位就是缓存行，缓存行大小依据架构不同有不同大小，最常见的有64Byte和32Byte，CPU缓存从内存取数据时以缓存行为单位进行，每一次都取需要读取数据所在的整个缓存行，即使相邻的数据没有被用到也会被缓存到CPU缓存中（这里又涉及到局部性原理，后面文章会进行介绍）.

缓存一致性

在单核CPU情况下，上述方法可以正常工作，可以确保缓存到CPU缓存中的数据永远是“干净”的，因为不会有其他CPU去更改内存中的数据，但是在多核CPU下，情况就变得更加复杂一些。多CPU中，每个CPU都有自己的私有缓存（可能共享L3缓存），当一个CPU1对Cache中缓存数据进行操作时，如果CPU2在此之前更改了该数据，则CPU1中的数据就不再是“干净”的，即应该是失效数据，缓存一致性就是为了保证多CPU之间的缓存一致.

Linux系统中采用MESI协议处理缓存一致性，所谓MESI即是指CPU缓存的四种状态:

M（修改，Modified）：本地处理器已经修改缓存行，即是脏行，它的内容与内存中的内容不一样，并且此 cache 只有本地一个拷贝(专有)；
E（专有，Exclusive）：缓存行内容和内存中的一样，而且其它处理器都没有这行数据；
S（共享，Shared）：缓存行内容和内存中的一样, 有可能其它处理器也存在此缓存行的拷贝；
I（无效，Invalid）：缓存行失效, 不能使用。

每个CPU缓存行都在四个状态之间互相转换，以此决定CPU缓存是否失效，比如CPU1对一个缓存行执行了写入操作，则此操作会导致其他CPU的该缓存行进入Invalid无效状态，CPU需要使用该缓存行的时候需要从内存中重新读取。由此就解决了多CPU之间的缓存一致性问题.

伪共享

何谓伪共享？上面我们提过CPU的缓存是以缓存行为单位进行的，即除了本身所需读写的数据之外还会缓存与该数据在同一缓存行的数据，假设缓存行大小是32字节，内存中有“abcdefgh”八个int型数据，当CPU读取“d”这个数据时，CPU会将“abcdefgh”八个int数据组成一个缓存行加入到CPU缓存中。假设计算机有两个CPU：CPU1和CPU2，CPU1只对“a”这个数据进行频繁读写，CPU2只对“b”这个数据进行频繁读写，按理说这两个CPU读写数据没有任何关联，也就不会产生任何竞争，不会有性能问题，但是由于CPU缓存是以缓存行为单位进行存取的，也是以缓存行为单位失效的，即使CPU1只更改了缓存行中“a”数据，也会导致CPU2中该缓存行完全失效，同理，CPU2对“b”的改动也会导致CPU1中该缓存行失效，由此引发了该缓存行在两个CPU之间“乒乓”，缓存行频繁失效，最终导致程序性能下降，这就是伪共享.

如何避免伪共享

避免伪共享主要有以下两种方式:

1.缓存行填充（Padding）：为了避免伪共享就需要将可能造成伪共享的多个变量处于不同的缓存行中，可以采用在变量后面填充字节的方式达到该目的.

2.使用某些语言或编译器中强制变量对齐，将变量都对齐到缓存行大小，避免伪共享发生.

总结

一般伪共享都很隐蔽，很难被发现，当伪共享真正构成性能瓶颈的时候，我们有必要去努力找到并解决它，但是在大部分对性能追求没有那么高的应用中，伪共享的存在对程序的危害很小，有时并不值得耗费精力和额外的内存空间（缓存行填充）去查找系统存在的伪共享。还是那句我一直以来遵循的话“不要过度优化，不要提前优化。”.

以上就是浅谈C++性能榨汁机之伪共享的详细内容，更多关于C++性能榨汁机之伪共享的资料请关注我其它相关文章！。

原文链接：https://www.cnblogs.com/lsgxeva/p/11076283.html 。

最后此篇关于浅谈C++性能榨汁机之伪共享的文章就讲到这里了,如果你想了解更多关于浅谈C++性能榨汁机之伪共享的内容请搜索CFSDN的文章或继续浏览相关文章，希望大家以后支持我的博客！。

26

4

0

文章推荐：详解windows下C/C++的内存泄露检测

文章推荐： js实现轮播图效果纯js实现图片自动切换

文章推荐： Laravel框架查询构造器 CURD操作示例

文章推荐：区分WCF与WebService的异同、优势

javascript - Ember.js，性能，性能 :
性能:数据存储写入与请求日志写入
我们希望通过我们的应用收集使用情况统计信息。因此，我们希望在服务器端的某个地方跟踪用户操作。就性能而言，哪个选项更合适: 在 App Engine 请求日志中跟踪用户操作。即为每个用户操作写入一个日
LINQ 性能
在针对对象集合的 LINQ 查询的幕后究竟发生了什么？它只是语法糖还是发生了其他事情使其更有效的查询？最佳答案您是指查询表达式，还是查询在幕后的作用？查询表达式首先扩展为“普通”C#。例如: v
WPF 性能
我正在构建一个简单的照片库应用程序，它在列表框中显示图像。 xaml 是:
java缓存系统和静态HashMap存储-性能
对于基于 Web 的企业应用程序，使用“静态 Hashmap 存储对象” 和 apache java 缓存系统有何优缺点？哪一个最有利于性能并减少堆内存问题例如: Map store=Applica
jquery存储变量类(性能)
我想知道在性能方面存储类变量的最佳方式是什么。我的意思是，由于 Children() 函数，存储一个 div id 比查找所有其他类名更好。还是把类名写在变量里比较好？例如这样: var $inne
Cassandra 性能
我已经阅读了所有这些关于 cassandra 有多快的文章，例如单行读取可能需要大约 5 毫秒。到目前为止，我不太关心我的网站速度，但是随着网站变得越来越大，一些页面开始需要相当多的查询，例如一个页
MySQL 性能
最近，我在缓存到内存缓存之前的查询一直需要很长时间才能处理!在这个例子中，它花费了 10 秒。在这种情况下，我要做的就是获得 10 个最近的点击。我感觉它加载了所有 125,592 行然后只返回 1
基本操作的C#性能
我找了几篇文章(包括SA中的一些问题)，试图找到基本操作的成本。但是，我尝试制作自己的小程序，以便自己进行测试。在尝试测试加法和减法时，我遇到了一些问题，我用简单的代码向您展示了这一点
Java远程调试——性能
这个问题在这里已经有了答案: Will Java app slow down by presence of -Xdebug or only when stepping through code? (
Javascript with() 性能
我记得很久以前读过 with() 对 JavaScript 有一些严重的性能影响，因为它可能对范围堆栈进行非确定性更改。我很难找到最近对此的讨论。这仍然是真的吗？最佳答案与其说 with 对性能有
MySQL 性能
我们有一个数据仓库，其中包含非规范化表，行数从 50 万行到 6 多万行不等。我正在开发一个报告解决方案，因此出于性能原因我们正在使用数据库分页。我们的报告有搜索条件，并且我们已经创建了必要的索引，但
mysql - 性能
我有一条有效的 SQL 语句，但需要很长时间才能处理我有一个 a_log 表和一个 people 表。我需要在 people 表中找到给定人员的每个 ID 的最后一个事件和关联的用户。 SELECT
JavaScript 性能
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
CSS 性能
通常当我建立一个站点时，我将所有的 CSS 放在一个文件中，并且一次性定义与一组元素相关的所有属性。像这样: #myElement { color: #fff; background-
CSS 性能
两者之间是否存在任何性能差异: p { margin:0px; padding:0px; } 并省略最后的分号: p { margin:0px; padding:0px } 提前致谢!
PHP高精数学-性能
我的应用程序 (PHP) 需要执行大量高精度数学运算(甚至可能出现一共100个数字) 通过这个论坛的最后几篇帖子，我发现我必须使用任何高精度库，如 BC Math 或 GMP，因为 float 类型不
Javamail 性能
我一直在使用 javamail 从 IMAP 服务器(目前是 GMail)检索邮件。 Javamail 非常快速地从服务器检索特定文件夹中的消息列表(仅 id)，但是当我实际获取消息(仅包含甚至不包含
ruby 性能
我非常渴望开发我的第一个 Ruby 应用程序，因为我的公司终于在内部批准了它的使用。在我读到的关于 Ruby v1.8 之前的所有内容中，从来没有任何关于性能的正面评价，但我没有发现关于 1.9 版
redis结构、性能
我是 Redis 的新手，我有一个包含数百万个成员(member) ID、电子邮件和用户名的数据集，并且正在考虑将它们存储在例如列表结构中。我认为 list 和 sorted set 可能最适合我的情

首页

博学

6Ren·AI

商城