- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
以下代码在 amd64 上用 gcc 或 clang 编译
// gcc -O2 file.c -c
int f(int a, int b, int c, int d)
{
return a & b & c & d;
}
生成以下程序集:
0000000000000000 <f>:
0: 89 d0 mov %edx,%eax
2: 21 c8 and %ecx,%eax
4: 21 f0 and %esi,%eax
6: 21 f8 and %edi,%eax
8: c3 retq
由于按位 and
应该是关联的,因此人们会假设将成对累加到两个寄存器然后 and
这两个寄存器会更有效。这将打破依赖关系并允许在具有多个 ALU 的 CPU 上并行执行。
由于编译器将 和
放入同一个寄存器以进行所有操作,我假设它依赖于 cpu 能够进行寄存器重命名以打破依赖关系本身。
CPU 的寄存器重命名功能是否没有成本并且在 amd64 上始终可用,或者为什么编译器会这样编译代码?
更新:
我发现如果给 gcc 传递一个更高的 tree-assoc-width 值,它可以执行预期的依赖链中断:
--param tree-reassoc-width=2
最佳答案
这看起来像是编译器不够聪明。尽管 Intel 的 Ivy Bridge 和 Haswell 微架构支持移动消除,所以 mov %edx,%eax; and %ecx, %eax
实际上变成了 and %ecx, %edx -->%eax
,这个序列仍然需要三个周期(忽略这样一个小的顺序依赖链的事实会被适度的无序执行窗口隐藏)。如果编译器聪明的话,可能会生成更像下面这样的东西:
and %esi,%edi
and %edx,%ecx
mov %edi,%eax
and %ecx,%eax
retq
如您所述,这将打破依赖链。 (通过移动消除,最后三个指令没有数据依赖性,因此如果函数调用是一条指令[并且 L2 和 L3 未命中]并且在前端等待处理指令缓存未命中时提交了先前的指令 并且在提交返回指令后读取了一个零开销计时器[假设返回时没有目标错误预测]可能比 gcc 生成的代码花费一个周期。)两个-宽序处理器将执行 和 %esi,%edi; and %edx,%ecx
在一个循环中,在下一个循环中移动 %edi,%eax
,并且 and %ecx,%eax; retq
在第三个,而对于 gcc 生成的代码 mov %edx,%eax
将在第一个周期执行,和 %ecx,%eax
第二个是和%esi,%eax
第三个是和%edi,%eax; retq
在第四个。
寄存器重命名不会破坏真正的数据依赖链,但会移除name 依赖(Write-After-Read [写入应该发生在读取之后,因此读取得到旧值] 和Write-After-Write 危害是名称依赖性 [从技术上讲,可以删除没有读取的写入,但是检测到没有进行读取并且以后的写入不是推测性的通常被认为是不值得的];阅读-After-Write 是真正的数据依赖,Read-After-Read 没有依赖)。在乱序执行的实现中,寄存器重命名是普通操作的一部分;从这个意义上说,它可以被认为是“无成本”的。
关于x86 寄存器重命名的成本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22675733/
我正在尝试使用谷歌浏览器的 Trace Event Profiling Tool分析我正在运行的 Node.js 应用程序。选择点样本后,我可以在三种 View 之间进行选择: 自上而下(树) 自上而
对于一个可能是菜鸟的问题,我们深表歉意,但尽管在 SO 上研究了大量教程和其他问题,但仍找不到答案。 我想做的很简单:显示一个包含大量数据库存储字符串的 Android ListView。我所说的“很
我已经开始了一个新元素的工作,并决定给 Foundation 5 一个 bash,看看它是什么样的。在创建带有水平字段的表单时,我在文档中注意到的第一件事是它们使用大量 div 来设置样式。所以我在下
我有一个 Windows 窗体用户控件,其中包含一个使用 BeginInvoke 委托(delegate)调用从单独线程更新的第 3 方图像显示控件。 在繁重的 CPU 负载下,UI 会锁定。当我附加
我有一堆严重依赖dom元素的JS代码。我目前使用的测试解决方案依赖于 Selenium ,但 AFAIK 无法正确评估 js 错误(addScript 错误不会导致您的测试失败,而 getEval 会
我正在制作一款基于滚动 2D map /图 block 的游戏。每个图 block (存储为图 block [21][11] - 每个 map 总共 231 个图 block )最多可以包含 21 个
考虑到以下情况,我是前端初学者: 某个 HTML 页面应该包含一个沉重的图像(例如 - 动画 gif),但我不想强制客户缓慢地等待它完全下载才能享受一个漂亮的页面,而是我更愿意给他看一个轻量级图像(例
我正在设计一个小软件,其中包括: 在互联网上获取资源, 一些用户交互(资源的快速编辑), 一些处理。 我想使用许多资源(它们都列在列表中)来这样做。每个都独立于其他。由于编辑部分很累,我想让用户(可能
我想比较两个理论场景。为了问题的目的,我简化了案例。但基本上它是您典型的生产者消费者场景。 (我关注的是消费者)。 我有一个很大的Queue dataQueue我必须将其传输给多个客户端。 那么让我们
我有一个二元分类问题,标签 0 和 1(少数)存在巨大不平衡。由于测试集带有标签 1 的行太少,因此我将训练测试设置为至少 70-30 或 60-40,因此仍然有重要的观察结果。由于我没有过多地衡量准
我是一名优秀的程序员,十分优秀!