- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我目前正在使用 gcc
体验一些奇怪的效果(测试版本:4.8.4)。
我有一个面向性能的代码,它运行得非常快。它的速度在很大程度上取决于内联许多小函数。
由于跨多个内联 .c
文件很难(-flto
尚未广泛使用),我将许多小函数(通常每个 1 到 5 行代码)保存到一个公共(public) C 文件中,我正在其中开发编解码器,及其相关解码器。按照我的标准,它“相对”大(大约 2000 行,尽管其中很多只是注释和空白行),但是将其分成更小的部分会带来新问题,因此如果可能的话,我宁愿避免这种情况。
编码器和解码器是相关的,因为它们是逆运算。但是从编程的角度来看,它们是完全分离的,除了一些 typedef 和非常低级的函数(例如从未对齐的内存位置读取)之外,没有任何共同之处。
奇怪的效果是这样的:
我最近添加了一个新功能 fnew
到编码器侧。这是一个新的“切入点”。它不会在 .c
中的任何地方使用或调用文件。
它存在的简单事实使得解码器函数的性能fdec
大幅下降,超过 20%,这是不容忽视的。
现在,请记住编码和解码操作是完全分离的,并且几乎没有共享,只保留一些小问题 typedef
( u32
、 u16
等)和相关操作(读/写)。
定义新的编码函数时fnew
如 static
,解码器的性能fdec
增加恢复正常。自 fnew
不是从 .c
调用的,我想这和它不存在一样(死代码消除)。
如 static fnew
现在从编码器端调用,性能为fdec
保持强劲。
但是一旦fnew
已修改,fdec
性能只是大幅下降。
假设 fnew
修改越过阈值,我增加了以下gcc
参数:--param max-inline-insns-auto=60
(默认情况下,它的值应该是 40。)它起作用了:fdec
的性能现在已恢复正常。
我猜这个游戏会随着 fnew
的每一个小改动而永远继续下去。或其他类似的东西,需要进一步调整。
这简直太奇怪了。函数 fnew
中的一些小修改没有合乎逻辑的原因对完全不相关的功能产生链式 react fdec
,唯一的关系是在同一个文件中。
到目前为止,我能发明的唯一尝试性解释可能是 fnew
的简单存在。足以穿越某种global file threshold
这会影响 fdec
. fnew
可以在以下情况下设置为“不存在”:1. 不存在,2. static
但不能从任何地方调用 3. static
并且小到可以内联。但这只是掩盖了问题。这是否意味着我不能添加任何新功能?
真的,我在网上的任何地方都找不到任何令人满意的解释。
我很想知道是否有人已经经历了一些等效的副作用,并找到了解决方案。
[编辑]
让我们进行一些更疯狂的测试。
现在我添加了另一个完全没用的函数,只是为了玩。它的内容严格来说是 fnew
的复制粘贴,但是函数名明显不同,所以我们叫它wtf
.
当wtf
存在,则无所谓fnew
是不是静态的,max-inline-insns-auto
的值是多少: fdec
的表现已恢复正常。
即使 wtf
不会从任何地方使用或调用... :'(
[编辑 2]
没有inline
操作说明。所有功能正常或static
.内联决定完全在编译器的范围内,到目前为止效果很好。
[编辑 3]
正如 Peter Cordes 所建议的,这个问题与内联无关,而是与指令对齐有关。在较新的英特尔 CPU(Sandy Bridge 和更高版本)上,热循环受益于在 32 字节边界上对齐。
问题是,默认情况下,gcc
在 16 字节边界上对齐它们。根据先前代码的长度,有 50% 的机会正确对齐。因此,这是一个难以理解的问题,“看起来很随机”。
并非所有循环都是敏感的。它只对关键循环很重要,并且只有当它们的长度使它们在不太理想的对齐时跨越一个 32 字节的指令段时才重要。
最佳答案
将我的评论变成答案,因为它变成了长时间的讨论。讨论表明,性能问题对对齐很敏感。
在 https://stackoverflow.com/tags/x86/info 上有一些性能调整信息的链接。 ,包括 Intel 的优化指南和 Agner Fog 的非常出色的东西。 Agner Fog 的一些装配优化建议并不完全适用于 Sandybridge 和更高版本的 CPU。但是,如果您想要特定 CPU 的低级详细信息,那么微架构指南非常好。
如果没有至少一个我可以自己尝试的代码的外部链接,我只能做手波。如果您不在任何地方发布代码,您将需要使用分析/CPU 性能计数器工具,例如 Linux perf
或英特尔 VTune 以在合理的时间内跟踪此问题。
在聊天中,OP 找到了 someone else having this issue, but with code posted . 这可能与 OP 看到的问题相同 ,并且是代码对齐对于 Sandybridge 风格的 uop 缓存很重要的主要方式之一。
在慢速版本的循环中间有一个 32B 边界。在边界解码为 5 uop 之前开始的指令。所以在第一个周期,uop缓存服务起来mov/add/movzbl/mov
.在第二个周期中,只有一个 mov
uop 留在当前缓存行中。然后第三个循环发出循环的最后 2 个 uops:add
和 cmp+ja
.
有问题的 mov
开始于 0x..ff
.我猜跨越 32B 边界的指令进入(其中一个)uop 缓存行作为其起始地址。
在快速版本中,一次迭代只需要 2 个周期即可发出:相同的第一个周期,然后 mov / add / cmp+ja
在第二。
如果前 4 条指令中的一条多一个字节(例如用无用的前缀或 REX 前缀填充),则没有问题。在第一个缓存行的末尾不会有奇怪的人退出,因为 mov
将在 32B 边界之后开始并成为下一个 uop 缓存行的一部分。
AFAIK,汇编和检查反汇编输出是使用相同指令的较长版本(参见 Agner Fog 的优化汇编)以 4 uop 的倍数获得 32B 边界的唯一方法。我不知道在您编辑时显示汇编代码对齐的 GUI。 (显然,这样做仅适用于手写 asm,而且很脆弱。根本更改代码会破坏手写对齐。)
这就是英特尔优化指南建议将关键循环与 32B 对齐的原因。
如果汇编器有办法要求使用更长的编码来汇编前面的指令以填充到特定长度,那将会非常酷。也许是 .startencodealign
/.endencodealign 32
指令对,将填充应用于指令之间的代码以使其在 32B 边界上结束。但是,如果使用不当,这可能会产生糟糕的代码。
对内联参数的更改将更改函数的大小,并将其他代码以 16B 的倍数覆盖。这与更改函数内容的效果类似:它变大并更改其他函数的对齐方式。
I was expecting the compiler to always make sure a function starts at ideal aligned position, using noop to fill gaps.
perf stat ./cmd
),看看是否有任何不同。例如更多的缓存未命中可能表明线程之间缓存线的错误共享。另外,分析并查看“慢”版本中是否有新的热点。 (例如,在 Linux 上使用
perf record ./cmd && perf report
)。
关于c - gcc 的性能下降很大,可能与内联有关,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32353161/
我想循环遍历 gpx 文件并计算总上升和下降。我有一个函数可以计算两组经纬度点之间的高程差异,我已经设置了 simplexml 来读取和循环遍历 gpx 文件 trkseg 点。 问题是,这不准确(实
我有两个在不同时间段拍摄的数组。如何通过将新玩家标记为上升来检查哪些玩家在列表中上升/下降? 附言- 数组已经根据分数排序。 pastData:[ { playerName:'Jo
我想捕获 ctrl/alt/etc 键的起伏,无论表单上的哪个控件获取 keyup 或 keydown 事件。由于我的表单上有大约 100 个控件,如果我要为每个单独的控件添加代码,那将非常难看。我怎
vector1 = c(2, 2, 2, 2, 2, 2) vector2 = c(2, 2, 3, 3, 3, 3) vector3 = c(2, 2, 1, 2, 2, 2) 我想知道向量中的数字
我不知道如何遵循编译器的建议:consider using a let binding to create a longer lived value。 Playground #![allow(unus
我希望有人能帮助我理解 AngularJS 中的 $scope 遇到的一个恼人的问题。请参阅下面我的代码中的注释: app.controller('MyController', function ($
我有一个 flex 搜索集群,其中有2个节点在2核CPU 8GB ram实例上运行。每个节点都传入了参数“ES_JAVA_OPTS = -Xms3g -Xmx3g”。我有4个索引,每个索引有2个分片和
我正在学习 R(及其通过 quantmod lib 在交易任务中的应用)并定期浏览社区以从这里获得许多新知识和技巧。我对 R 的总体印象和特别是 quantmod lib 的印象 - 它很棒。 在这一
当我们点击屏幕时,我正在绘制纹理正方形。我正在使用相同的纹理。在新 ios 设备中点击几次后,FPS 从 120 下降到 4 左右。每次手指点击时,我都会将点击的点以及纹理和纹理的大小传递给着色器。
只有当对象被点击并且需要从列表中移除时它才会掉落。这是代码: if(event.type == TouchEvent.TOUCH_DOWN){ for(Bottle bottl
我有一个基于SpriteKit的小游戏。 在这个游戏中,我使用了很多带有字母(或字母组合)的节点,用户可以四处移动来构建单词。 这些节点基本上是带有 SKLabelNode 的 SKSpriteNod
我有一个简单的CSS布局 wrapper header left-sidebar / main-content / right-sidebar footer 但我的主要内容似乎下降了(float dr
在标题中,我给出了四个不同的部分,并使用 float 属性使所有内容都显示在一条水平线上。 当我调整浏览器窗口大小时,最后一个 div 位于黑色边框线下方。 如何解决。 http://jsfiddle
CSS: .desc{ text-align: center; color:#60A8D5; padding-top: 17px;
这是一段简单的代码,但我为这个问题尝试过的解决方案都没有奏效。 #ONE { float: left; border: 1
我有一个 SceneKit 设置,其中有一个 Sphere 设置为 Dynamic body。 我能够运行该应用程序并看到球体落在静态 body 地板上。 我想做的是设置场景,这样 sfere 最初就
首先,我的类(class): export class FooBar { ... isFavorite: boolean = false; constructor() { this.isF
我正在尝试删除所有端口上的所有传出 RST 和传入 RST。我正在使用 Debian Linux。我尝试了互联网上列出的所有可能的命令组合,但似乎没有任何效果。 例如,我试过: iptables -A
我正在做这样的事情: fn main() { //[1, 0, 0, 0, 99]; // return [2, 0, 0, 0, 99] //[2, 3, 0, 3, 99]; //
我正在使用 Rusqlite,它可以让你做这样的查询: statement.query_row(params!([1, 2, 3]), ...); params!()定义如下: macro_rules
我是一名优秀的程序员,十分优秀!