- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我看到有人在使用 -msse -msse2 -mfpmath=sse
默认情况下标记为希望这将提高性能。我知道当在 C 代码中使用特殊的 vector 类型时,SSE 就会参与进来。但是这些标志对常规 C 代码有什么影响吗?编译器是否使用 SSE 来优化常规 C 代码?
最佳答案
是的,如果您使用完全优化进行编译,现代编译器会使用 SSE2 自动矢量化。 clang 甚至在 -O2 时启用它,gcc 在 -O3 时启用它。
即使在 -O1 或 -Os 处,编译器也会使用 SIMD 加载/存储指令来复制或初始化结构体或比整数寄存器更宽的其他对象。这不算是自动矢量化;它更像是他们针对固定大小的小块的默认内置 memset/memcpy 策略的一部分。但它确实利用并需要支持 SIMD 指令。
SSE2 是 x86-64 的基线/非可选,因此编译器在面向 x86-64 时始终可以使用 SSE1/SSE2 指令 .以后的指令集(SSE4、AVX、AVX2、AVX512 和非 SIMD 扩展,如 BMI2、popcnt 等)必须手动启用,以告诉编译器可以生成不能在旧 CPU 上运行的代码。或者让它生成多个版本的代码并在运行时进行选择,但这会产生额外的开销,并且仅对较大的函数才值得。
-msse -msse2 -mfpmath=sse
已经是 x86-64 的默认设置 ,但不适用于 32 位 i386。一些 32 位调用约定在 x87 寄存器中返回 FP 值,因此使用 SSE/SSE2 进行计算可能很不方便,然后必须存储/重新加载结果才能在 x87 中获取它 st(0)
.与 -mfpmath=sse
,更聪明的编译器可能仍然使用 x87 进行计算以生成 FP 返回值。
在 32 位 x86 上,-msse2
默认情况下可能未启用,这取决于您的编译器的配置方式。如果你使用 32 位是因为你的目标 CPU 太旧以至于无法运行 64 位代码,你可能需要确保它被禁用,或者只是 -msse
.
为您正在编译的 CPU 调整二进制文件的最佳方法是 -O3 -march=native -mfpmath=sse
,并使用链接时间优化 + 配置文件引导优化 . (gcc -fprofile-generate
/在一些测试数据上运行/gcc -fprofile-use
)。
使用 -march=native
如果编译器确实选择使用新指令,则生成可能无法在早期 CPU 上运行的二进制文件。配置文件引导的优化对 gcc 非常有帮助:没有它它永远不会展开循环。但是对于 PGO,它知道哪些循环经常运行/进行大量迭代,即哪些循环是“热的”并且值得花费更多的代码大小。链接时优化允许跨文件内联/常量传播。如果您的 C++ 具有许多实际上并未在头文件中定义的小函数,这将非常有用。
见 How to remove "noise" from GCC/clang assembly output? 有关查看编译器输出并理解它的更多信息。
下面是一些具体的例子on the Godbolt compiler explorer适用于 x86-64 . Godbolt 也有适用于其他几种架构的 gcc,您可以使用 clang 添加 -target mips
或者其他什么,因此您还可以使用正确的编译器选项来查看 ARM NEON 的自动矢量化以启用它。您可以使用 -m32
使用 x86-64 编译器获得 32 位代码生成。
int sumint(int *arr) {
int sum = 0;
for (int i=0 ; i<2048 ; i++){
sum += arr[i];
}
return sum;
}
gcc8.1 -O3
的内循环(没有
-march=haswell
或任何启用 AVX/AVX2 的东西):
.L2: # do {
movdqu xmm2, XMMWORD PTR [rdi] # load 16 bytes
add rdi, 16
paddd xmm0, xmm2 # packed add of 4 x 32-bit integers
cmp rax, rdi
jne .L2 # } while(p != endp)
# then horizontal add and extract a single 32-bit sum
-ffast-math
, 编译器不能重新排序 FP 操作,所以
float
等效的不要自动矢量化(参见 Godbolt 链接:你得到标量
addss
)。 (OpenMP 可以在每个循环的基础上启用它,或使用
-ffast-math
)。
// clang won't contract this into an FMA without -ffast-math :/
// but gcc will (if you compile with -march=haswell)
void scale_array(float *arr) {
for (int i=0 ; i<2048 ; i++){
arr[i] = arr[i] * 2.1f + 1.234f;
}
}
# load constants: xmm2 = {2.1, 2.1, 2.1, 2.1}
# xmm1 = (1.23, 1.23, 1.23, 1.23}
.L9: # gcc8.1 -O3 # do {
movups xmm0, XMMWORD PTR [rdi] # load unaligned packed floats
add rdi, 16
mulps xmm0, xmm2 # multiply Packed Single-precision
addps xmm0, xmm1 # add Packed Single-precision
movups XMMWORD PTR [rdi-16], xmm0 # store back to the array
cmp rax, rdi
jne .L9 # }while(p != endp)
2.0f
结果使用
addps
加倍,将 Haswell/Broadwell 的吞吐量减少 2 倍!因为在 SKL 之前,FP add 只运行在一个执行端口上,但是有两个 FMA 单元可以运行乘法。 SKL 放弃了加法器,并以与 mul 和 FMA 相同的每时钟 2 吞吐量和延迟运行相加。 (
http://agner.org/optimize/ ,并在
the x86 tag wiki 中查看其他性能链接。)
-march=haswell
让编译器对 scale + add 使用单个 FMA。 (但是,除非您使用
-ffast-math
,否则 clang 不会将表达式收缩为 FMA。IIRC 有一个选项可以启用 FP 收缩,而无需其他激进操作。)
关于c - 编译器是否将 SSE 指令用于常规 C 代码?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50786263/
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 此帖子已于 8 个月
除了调试之外,是否有任何针对 c、c++ 或 c# 的测试工具,其工作原理类似于将独立函数复制粘贴到某个文本框,然后在其他文本框中输入参数? 最佳答案 也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法,例如将分辨率加倍或输入负值,但它永远无法将窗口放在我的第二台显示器上。 关于如何在 C/C++/c# 中执行此操作的任何线索 最
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。 我正在尝试编写一个 C# 程序,它将使用 DES 算法进行加密和解密。我需要一些实
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
有没有办法强制将另一个 窗口置于顶部? 不是应用程序的窗口,而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
假设您可以在 C/C++ 或 Csharp 之间做出选择,并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例,那么构建套接字服务器应用程序的最明智选择是什么? 最佳答案 如
你们能告诉我它们之间的区别吗? 顺便问一下,有什么叫C++库或C库的吗? 最佳答案 C++ 标准库 和 C 标准库 是 C++ 和 C 标准定义的库,提供给 C++ 和 C 程序使用。那是那些词的共同
下面的测试代码,我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端 我想也许我应该使用
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码,但我不想与雇主共享该函数的代码。相反,我只想让他有权在他自己的代码中调用该函数。是否可以?我想到了这两种方法 - 在
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一些 C 代码,将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6
我是一名优秀的程序员,十分优秀!