- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个简单的 program :
int main()
{
return 2*7;
}
打开优化的 GCC 和 clang 都能愉快地生成 2 个指令二进制文件,但 icc 给出了奇怪的输出。
push rbp #2.1
mov rbp, rsp #2.1
and rsp, -128 #2.1
sub rsp, 128 #2.1
xor esi, esi #2.1
mov edi, 3 #2.1
call __intel_new_feature_proc_init #2.1
stmxcsr DWORD PTR [rsp] #2.1
mov eax, 14 #3.12
or DWORD PTR [rsp], 32832 #2.1
ldmxcsr DWORD PTR [rsp] #2.1
mov rsp, rbp #3.12
pop rbp #3.12
ret
最佳答案
我不知道为什么ICC选择按2个缓存行对齐堆栈:
and rsp, -128 #2.1
sub rsp, 128 #2.1
这很有趣。 L2 缓存有一个相邻行预取器,它喜欢将成对的行(在 128 字节对齐的组中)拉入 L2。但是 main 的堆栈框架通常不会被大量使用。也许在某些程序中重要的变量被分配在那里。 (这也解释了设置 rbp
以保存旧的 RSP,以便它可以在 ANDing 之后返回。gcc 在函数中使用 RBP 来对齐堆栈。)
剩下的就是因为main()
是特殊的,ICC 启用 -ffast-math
默认情况下。 (这是英特尔的“肮脏”小 secret 之一,让它开箱即用地自动矢量化更多浮点代码。)
这包括将代码添加到 main
的顶部设置 MXCSR(SSE 状态/控制寄存器)中的 DAZ/FTZ 位。有关这些位的更多信息,请参阅 Intel 的 x86 手册,但它们实际上并不复杂:
DAZ:非正规数为零:作为 SSE/AVX 指令的输入,非正规数被视为零。
FTZ:清零:舍入 SSE/AVX 指令的结果时,次正规结果清零。
相关:SSE "denormals are zeros" option
(ISO C++ 禁止程序回调 main()
,因此允许编译器将运行一次的内容放在 main
本身而不是 CRT 启动文件中。gcc/clang 与-ffast-math
指定用于设置 MXCSR 的 CRT 启动文件中的链接链接。但是当使用 gcc/clang 编译时,它只影响允许优化的代码生成。即,当不同的临时文件时,将 FP add/mul 视为关联的意味着它真的不是。这与设置 DAZ/FTZ 完全无关)。
非正规在这里被用作次正规的同义词:具有最小指数和尾数的 FP 值,其中隐含的前导位是 0 而不是 1。即,一个幅度小于 FLT_MIN
or DBL_MIN
的值。 ,最小的可表示标准化 float / double 。
https://en.wikipedia.org/wiki/Denormal_number .
产生次正常结果的指令可能很多慢:为了优化延迟,一些硬件中的快速路径假设结果是规范化的,如果结果不能规范化则采用微码辅助。使用 perf stat -e fp_assist.any
计算此类事件。
来自 Bruce Dawson 的优秀 FP 文章系列:That’s Not Normal–the Performance of Odd Floats 。还有:
Agner Fog 做了一些测试(参见他的 microarch pdf ),并为 Haswell/Broadwell 报告:
Underflow and subnormals
Subnormal numbers occur when floating point operations are close tounderflow. The handling of subnormal numbers is very costly in somecases because the subnormal results are handled by microcodeexceptions.
The Haswell and Broadwell have a penalty of approximately 124 clockcycles in all cases where an operation on normal numbers gives asubnormal result. There is a similar penalty for a multiplicationbetween a normal and a subnormal number, regardless of whether theresult is normal or subnormal. There is no penalty for adding a normaland a subnormal number, regardless of the result. There is no penaltyfor overflow, underflow, infinity or not- a-number results.
The penalties for subnormal numbers are avoided if the "flush-to-zero"mode and the "denormals-are-zero" mode are both set in the MXCSRregister.
所以在某些情况下,现代 Intel CPU 即使在次正规情况下也能避免惩罚,但是
关于c++ - 为什么 icc 会为一个简单的 main 生成奇怪的程序集?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52141947/
我正在努力实现以下目标, 假设我有字符串: ( z ) ( A ( z ) ( A ( z ) ( A ( z ) ( A ( z ) ( A ) ) ) ) ) 我想编写一个正则
给定: 1 2 3 4 5 6
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
大家好,我卡颂。 Svelte问世很久了,一直想写一篇好懂的原理分析文章,拖了这么久终于写了。 本文会围绕一张流程图和两个Demo讲解,正确的食用方式是用电脑打开本文,跟着流程图、Demo一
身份证为15位或者18位,15位的全为数字,18位的前17位为数字,最后一位为数字或者大写字母”X“。 与之匹配的正则表达式: ?
我们先来最简单的,网页的登录窗口; 不过开始之前,大家先下载jquery的插件 本人习惯用了vs2008来做网页了,先添加一个空白页 这是最简单的的做法。。。先在body里面插入 <
1、MySQL自带的压力测试工具 Mysqlslap mysqlslap是mysql自带的基准测试工具,该工具查询数据,语法简单,灵活容易使用.该工具可以模拟多个客户端同时并发的向服务器发出
前言 今天大姚给大家分享一款.NET开源(MIT License)、免费、简单、实用的数据库文档(字典)生成工具,该工具支持CHM、Word、Excel、PDF、Html、XML、Markdown等
Go语言语法类似于C语言,因此熟悉C语言及其派生语言( C++、 C#、Objective-C 等)的人都会迅速熟悉这门语言。 C语言的有些语法会让代码可读性降低甚至发生歧义。Go语言在C语言的
我正在使用快速将 mkv 转换为 mp4 ffmpeg 命令 ffmpeg -i test.mkv -vcodec copy -acodec copy new.mp4 但不适用于任何 mkv 文件,当
我想计算我的工作簿中的工作表数量,然后从总数中减去特定的工作表。我错过了什么?这给了我一个对象错误: wsCount = ThisWorkbook.Sheets.Count - ThisWorkboo
我有一个 perl 文件,用于查看文件夹中是否存在 ini。如果是,它会从中读取,如果不是,它会根据我为它制作的模板创建一个。 我在 ini 部分使用 Config::Simple。 我的问题是,如果
尝试让一个 ViewController 通过标准 Cocoa 通知与另一个 ViewController 进行通信。 编写了一个简单的测试用例。在我最初的 VC 中,我将以下内容添加到 viewDi
我正在绘制高程剖面图,显示沿路径的高程增益/损失,类似于下面的: Sample Elevation Profile with hand-placed labels http://img38.image
嗨,所以我需要做的是最终让 regStart 和 regPage 根据点击事件交替可见性,我不太担心编写 JavaScript 函数,但我根本无法让我的 regPage 首先隐藏。这是我的代码。请简单
我有一个非常简单的程序来测量一个函数花费了多少时间。 #include #include #include struct Foo { void addSample(uint64_t s)
我需要为 JavaScript 制作简单的 C# BitConverter。我做了一个简单的BitConverter class BitConverter{ constructor(){} GetBy
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。 这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
我是 Simple.Data 的新手。但我很难找到如何进行“分组依据”。 我想要的是非常基本的。 表格看起来像: +________+ | cards | +________+ | id |
我现在正在开发一个 JS UDF,它看起来遵循编码。 通常情况下,由于循环计数为 2,Alert Msg 会出现两次。我想要的是即使循环计数为 3,Alert Msg 也只会出现一次。任何想法都
我是一名优秀的程序员,十分优秀!