- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
如何告诉 MSVC 编译器使用 64 位/32 位除法运算为 x86-64 目标计算以下函数的结果:
#include <stdint.h>
uint32_t ScaledDiv(uint32_t a, uint32_t b)
{
if (a > b)
return ((uint64_t)b<<32) / a; //Yes, this must be casted because the result of b<<32 is undefined
else
return uint32_t(-1);
}
我希望代码在 if
语句为真时编译为使用 64 位/32 位除法运算,例如像这样:
; Assume arguments on entry are: Dividend in EDX, Divisor in ECX
mov edx, edx ;A dummy instruction to indicate that the dividend is already where it is supposed to be
xor eax,eax
div ecx ; EAX = EDX:EAX / ECX
...然而x64 MSVC编译器坚持使用128bit/64bit的div
指令,例如:
mov eax, edx
xor edx, edx
shl rax, 32 ; Scale up the dividend
mov ecx, ecx
div rcx ;RAX = RDX:RAX / RCX
参见:https://www.godbolt.org/z/VBK4R7 1
根据this question的回答,128 位/64 位 div
指令并不比 64 位/32 位 div
指令快。
这是一个问题,因为它不必要地减慢了我的 DSP 算法,该算法进行了数百万个这样的缩放除法。
我通过修补可执行文件以使用 64 位/32 位 div 指令来测试此优化:根据 rdtsc
指令产生的两个时间戳,性能提高了 28%。
(编者注:大概在最近的一些 Intel CPU 上。AMD CPU 不需要这种微优化,如链接的问答中所述。)
最佳答案
当前的编译器 (gcc/clang/ICC/MSVC) 不会从可移植的 ISO C 源代码进行这种优化,即使您让它们证明 b < a
所以商将适合 32 位。 (例如 GNU C if(b>=a) __builtin_unreachable();
on Godbolt )。这是一个错过的优化;在解决这个问题之前,您必须使用内部函数或内联 asm 来解决它。
(或者改用 GPU 或 SIMD;如果您对许多元素有相同的除数,请参阅 https://libdivide.com/ SIMD 计算一次乘法逆并重复应用它。)
_udiv64
is available从 Visual Studio 2019 RTM 开始。
在 C 模式 ( -TC
) 中,它显然总是被定义的。在 C++ 模式下,您需要 #include <immintrin.h>
,根据 Microsoft 文档。或 intrin.h
.
https://godbolt.org/z/vVZ25L (或者 on Godbolt.ms 因为 Godbolt 主站点上最近的 MSVC 不工作1。)
#include <stdint.h>
#include <immintrin.h> // defines the prototype
// pre-condition: a > b else 64/32-bit division overflows
uint32_t ScaledDiv(uint32_t a, uint32_t b)
{
uint32_t remainder;
uint64_t d = ((uint64_t) b) << 32;
return _udiv64(d, a, &remainder);
}
int main() {
uint32_t c = ScaledDiv(5, 4);
return c;
}
_udiv64 将产生 64/32 格。左右两个移位是一个遗漏的优化。
;; MSVC 19.20 -O2 -TC
a$ = 8
b$ = 16
ScaledDiv PROC ; COMDAT
mov edx, edx
shl rdx, 32 ; 00000020H
mov rax, rdx
shr rdx, 32 ; 00000020H
div ecx
ret 0
ScaledDiv ENDP
main PROC ; COMDAT
xor eax, eax
mov edx, 4
mov ecx, 5
div ecx
ret 0
main ENDP
所以我们可以看到 MSVC 不会通过 _udiv64
进行持续传播, 即使在这种情况下它没有溢出并且它可能已经编译了 main
只是mov eax, 0ccccccccH
/ret
.
更新#2 https://godbolt.org/z/n3Dyp-添加了英特尔 C++ 编译器的解决方案,但这效率较低,并且会破坏常量传播,因为它是内联 asm。
#include <stdio.h>
#include <stdint.h>
__declspec(regcall, naked) uint32_t ScaledDiv(uint32_t a, uint32_t b)
{
__asm mov edx, eax
__asm xor eax, eax
__asm div ecx
__asm ret
// implicit return of EAX is supported by MSVC, and hopefully ICC
// even when inlining + optimizing
}
int main()
{
uint32_t a = 3 , b = 4, c = ScaledDiv(a, b);
printf( "(%u << 32) / %u = %u\n", a, b, c);
uint32_t d = ((uint64_t)a << 32) / b;
printf( "(%u << 32) / %u = %u\n", a, b, d);
return c != d;
}
脚注 1:Matt Godbolt 的主要站点的非 WINE MSVC 编译器暂时(?)消失了。微软运行https://www.godbolt.ms/在真正的 Windows 上托管最近的 MSVC 编译器,并且通常主要的 Godbolt.org 站点中继到 MSVC。)
godbolt.ms 似乎会生成短链接,但不会再次扩展它们!无论如何,完整链接更好,因为它们可以抵抗链接失效。
关于c - 我如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56657236/
我有两个单独编译的DLL,一个是从Visual Studio2008编译的,另一个是从MATLAB编译的MEX文件。这两个DLL都包含一个头文件。当我获取一个DLL中的结构sizeof()时,它返回4
一位同事更喜欢尤达的条件:。这在团队中是一种有争议的风格,并且提出的一个论点是,如果(x=0),编译器可以一致地发出警告来检测错误模式。。然而,msvc似乎没有检测到类(https://godbolt
while (getline(stream, thisword, ' ') != 0) {... 我可以在 MSVC 2012 下编译这一行。通过传递一个“SPC”字符作为字符串分隔符,它应该测试输入
我使用较早版本的 Cocos2dx 编写游戏并使用 VS 2013 对其进行编译。请注意,我使用的是 CMake 和 Qt Creator 以及两个编译器版本。当 Cocos2dx v3.12 出来时
我正在尝试在 Windows 10 64 位下的 Python 3.8.3 上安装 chatterbot 包并遇到一个奇怪的错误,我怀疑它一定与某些目录或 PATH 设置有关,我希望这是一个简单的修复
知乎Where and why do we have to put the template and typename keywords , 我很惊讶地得知 MSVC accepts以下代码: str
在摆弄复制省略时,我遇到了这种奇怪的行为: class Obj { public: Obj() = default; Obj(Obj&&) = delete; Obj(const Obj
以下代码使用 gcc 和 clang(以及许多其他 C++11 编译器)进行编译 #include typedef int datatype; template struct to_datatyp
我已经阅读了很多帖子,但我不明白如何在命令行中使用 MSVC 在 Windows 上创建一个简单的动态库。我正在做的是: 1º) 编写 DLL 代码 动态.h #pragma once __decls
我有以下代码无法与MSVC一起编译。使用gcc,clang和icc可以正常编译。我想这是个错误,对不对? 您有/知道一些解决方法吗? #include struct A { template
我已经阅读了很多帖子,但我不明白如何在命令行中使用 MSVC 在 Windows 上创建一个简单的动态库。我正在做的是: 1º) 编写 DLL 代码 动态.h #pragma once __decls
我有一个简单的 C++ 代码,我尝试使用 Visual Studio 2019 进行编译: #include #include int main() { std::cout << "Hel
有没有办法告诉MSVC编译器在短时间内不要修改某个寄存器?就像在一个小循环中,告诉它不要使用 ebx 寄存器(它可以使用任何其他寄存器)。在这种情况下,压入和弹出寄存器不起作用,因为在我将其弹出后,M
Borland C 有伪寄存器 _AX、_BX、_FLAGS 等,可以在“C”代码中使用它们将寄存器保存到临时变量。 是否有任何 MSVC 等效项?我尝试了@AX、@BX等,但编译器(MSVC1.5)
美好的一天, 我在 C++ 中尝试新事物,我发现 Visual Studio 中的调试和发布配置给我不同的结果。 #include #include #include #include #in
我想我在 MSVC 的编译器(MSVC Ultimate 2012 版本 11.0.61030.00 更新 4)中发现了一个错误。 #include "stdafx.h" class Base { p
我正在使用 Haxe 的 HXCPP 生成 C++ 代码并使用 Microsoft Visual Studio 2010 Express Edition 对其进行编译。我正在关注 this指南,它会要
我正在使用 Microsoft Visual Studio 2008 (C++)。我有一个要在 Debug模式下构建的解决方案。我引用了一些第三方库(例如 MyGUI)。在调试构建结束时,链接器给出了
老计算机程序员遇到新问题:-) 我正在将一个 CMake 文件项目移至 Visual Studio,并且该 CMake 项目中有数百个包含路径。 我当然可以一劳永逸地修补它们,但这会经常发生在不同的机
我有下一个功能: namespace TEST { class TEST { int a; int b; }; } namespace UNION_TE
我是一名优秀的程序员,十分优秀!