从技术上讲，使用 -O3 编译 gcc 会增加我的缓存未命中率-6ren

从技术上讲，使用 -O3 编译 gcc 会增加我的缓存未命中率

转载作者：行者123 更新时间：2023-11-30 14:34:16

25

4

我用cachegrind 进行了一些分析并注意到了一些事情。当我使用 -O3 进行编译时，我的数据获取较少，但相同数量的缓存未命中导致较高的未命中率。这很棒，但对我来说这似乎是一件有趣而奇怪的事情，我想知道幕后发生了什么。我打开的唯一其他相关编译器选项是 -march=native 。为了比较，

没有O3

==16951== D   refs:        923,170,681  (817,941,424 rd   + 105,229,257 wr)
==16951== D1  misses:        9,477,102  (  8,115,150 rd   +   1,361,952 wr)
==16951== LLd misses:          647,219  (    262,227 rd   +     384,992 wr)
==16951== D1  miss rate:           1.0% (        1.0%     +         1.3%  )
==16951== LLd miss rate:           0.1% (        0.0%     +         0.4%  )

与O3

==16978== D   refs:      218,804,125  (205,979,405 rd   + 12,824,720 wr)
==16978== D1  misses:      9,372,533  (  8,016,083 rd   +  1,356,450 wr)
==16978== LLd misses:        647,195  (    262,191 rd   +    385,004 wr)
==16978== D1  miss rate:         4.3% (        3.9%     +       10.6%  )
==16978== LLd miss rate:         0.3% (        0.1%     +        3.0%  )

最佳答案

这很可能是由于矢量化造成的:

-O3

Optimize yet more. -O3 turns on all optimizations specified by -O2
and also turns on ... -ftree-vectorize and -fipa-cp-clone options.

(来自 GCC 联机帮助页)。

关于从技术上讲，使用 -O3 编译 gcc 会增加我的缓存未命中率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59024433/

25

4

0

文章推荐： c# - 继承时缺少方法异常

文章推荐：从数组创建并打印二叉树

文章推荐：我可以 mmap 长度大于文件大小的文件吗？

文章推荐： javascript - 如何在多次鼠标悬停时更改光标

css - (OOP 技术)继承与接口(interface) --- 相同的概念？---(CSS 技术)样式标签与样式类？
原谅那个疯狂的标题... 我试图理解面向对象编程中继承与接口(interface)的概念。所以我试图将它与我已经知道的东西联系起来，这就是 CSS。在 CSS 中，您可以选择在允许元素“继承”样式的
包装无符号二进制数据的 SWIG 技术
我有一个 C 函数，它返回一个表示二进制数据的 unsigned char*。我在文档中注意到 SWIG 有一个很好的类型映射来处理二进制数据作为 C 函数的输入，但是当 C 函数返回二进制数据及其无
java - 序列处理或解析的首选语言/技术
过去遇到过几次类似的问题，想知道用什么语言(方法)来解决类似的问题(我是J2EE/java开发人员): 问题:在一组可能的单词中，根据给定的规则(假设单词可以是 A 和 X 的组合，并且始终以 X 开
支持事务处理的 Java 技术
这个问题不太可能帮助任何 future 的访客；它只与一个小地理区域、一个特定时刻或一个非常狭窄的情况相关，而这些情况通常不适用于互联网的全局受众。如需帮助使这个问题更广泛地适用，visit the
.net - 内部框架与新的C#技术
如果我们已经开发了自己的ORM框架并且该框架在过去的几年中运行良好，那么为什么我们要为即将到来的软件项目学习和使用全新的.net技术，例如LINQ或Entity Framework或NHibernat
Delphi - 用于跟踪传播的访问违规的工具/技术
即使听起来很奇怪，我相信每个人在处理具有大量自定义组件的大型应用程序时都遇到过此类问题。某个地方生成了 AV，但应用程序仍在继续执行，稍后会出现错误。我不是在谈论多线程应用程序。只是关于通用的单线程应
.NET "Push"技术？
我正在设计一个新项目，我正在尝试找出将数据/事件从服务器应用程序推送到客户端应用程序(即 WPF 应用程序)的方法。我知道的两个是: 发布/订阅(即 NServiceBus) Full Duplex
网络托管和 websocket 技术
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 5年前关闭。 Improve thi
用于确定计算机是否使用电池供电的 C# 技术？
这个问题在这里已经有了答案: C# .NET: How to check if we're running on battery? (6 个答案) 关闭 9 年前。我发现许多 API 可以帮助确定
javascript - 制定基本日期(技术)
没有 JQUERY!我有一个下拉列表，用户可以在其中选择日期、月份和年份。我创建以下代码并使用 setFullYear 将这些值传递到变量中。有时我还会向这个变量添加天数，这就是变量 ev_num 的
c# - GetDeviceCaps 技术
我有一个控件，我想在表单和打印时以不同的方式绘制它。这是我做的方式: private void printDocument1_PrintPage(object sender, System.Drawi
opencv - 用于从扫描文档中提取字段的图像配准算法/技术？
我正在尝试确定从扫描文档中提取手写数据的最佳方法。手写数据位于特定的方框区域。我生成了文档的数字版本，因此我知道方框区域的坐标，并且如果需要还可以生成文档的其他变体(即被屏蔽以使字段更容易提取的版本
algorithm - 模式识别算法/技术
背景对于基于音乐的问题，我深表歉意，但细节并没有那么重要。我正在按顺序浏览一个 midi 文件，我正在寻找一种有效的方法来查找数据中的模式以找到称为连音符的东西。见下图: 连音符上方有数字(3 或
对象生命周期结束的 Java 技术
经验丰富的 Java 新手，寻求您的智慧: 如果无法确保在对象超出范围时执行某些特定的 block 代码，那么还有哪些其他方法可以提供相同的功能？(看起来 finalize 显然不是那个意思) 一个典
algorithm - 画笔冲压算法/技术
我正在玩一个小的油漆应用程序。我想创建不同的画笔提示(不仅仅是简单的线条)。基本思想是沿着鼠标移动重复(冲压)画笔 Nib 。因为鼠标移动不会为鼠标移动的每个像素分派(dispatch)所需的事件。我
java - 从对象的属性中找到重叠值的好算法/技术？
我正在制作时间表应用程序。重要的类是: Period id: int clazz: Clazz SubjectTeacher subject: String teac
java - 什么是减少Java冗长的好模式/技术
关闭。这个问题需要更多 focused .它目前不接受答案。想要改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 4 年前。 Improve this q
video - 同步发送小视频的最佳视频格式/编解码器/技术
我有一个奇怪的任务要解决。我们有一个小型视频窗口(如 300x200 像素，256 色调色板)和 44kHz 2ch 声音在服务器上播放。我们需要将此流视频发送给一些客户端(1,2.. 最多 10 个
scala - 为什么类型级计算需要 Aux 技术？
我很确定我在这里遗漏了一些东西，因为我对 Shapeless 还很陌生并且我正在学习，但是 Aux 技术实际上什么时候开始需要 ?我看到它是用来暴露一个 type通过将其提升为另一个“同伴”的签名来声
.net - 为什么微软仍然坚持使用 COM 技术
微软有什么理由仍然坚持使用 COM 技术(Office 组件仍然是 COM)……当所有用 COM 完成的事情都可以用 .Net 以更好、更有效的方式完成时最佳答案因为它需要一个长完全重写Offi

首页

博学

6Ren·AI

商城

从技术上讲，使用 -O3 编译 gcc 会增加我的缓存未命中率