c - 我如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？-6ren

c - 我如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？

转载作者：太空狗更新时间：2023-10-29 15:17:18

24

4

如何告诉 MSVC 编译器使用 64 位/32 位除法运算为 x86-64 目标计算以下函数的结果:

#include <stdint.h> 

uint32_t ScaledDiv(uint32_t a, uint32_t b) 
{
  if (a > b)
        return ((uint64_t)b<<32) / a;   //Yes, this must be casted because the result of b<<32 is undefined
  else
        return uint32_t(-1);
}

我希望代码在 if 语句为真时编译为使用 64 位/32 位除法运算，例如像这样:

; Assume arguments on entry are: Dividend in EDX, Divisor in ECX
mov edx, edx  ;A dummy instruction to indicate that the dividend is already where it is supposed to be
xor eax,eax
div ecx   ; EAX = EDX:EAX / ECX

...然而x64 MSVC编译器坚持使用128bit/64bit的div指令，例如:

mov     eax, edx
xor     edx, edx
shl     rax, 32                             ; Scale up the dividend
mov     ecx, ecx
div rcx   ;RAX = RDX:RAX / RCX

参见:https://www.godbolt.org/z/VBK4R7 1

根据this question的回答，128 位/64 位 div 指令并不比 64 位/32 位 div 指令快。

这是一个问题，因为它不必要地减慢了我的 DSP 算法，该算法进行了数百万个这样的缩放除法。

我通过修补可执行文件以使用 64 位/32 位 div 指令来测试此优化:根据 rdtsc 指令产生的两个时间戳，性能提高了 28%。

(编者注:大概在最近的一些 Intel CPU 上。AMD CPU 不需要这种微优化，如链接的问答中所述。)

最佳答案

当前的编译器 (gcc/clang/ICC/MSVC) 不会从可移植的 ISO C 源代码进行这种优化，即使您让它们证明 b < a所以商将适合 32 位。 (例如 GNU C if(b>=a) __builtin_unreachable(); on Godbolt )。这是一个错过的优化；在解决这个问题之前，您必须使用内部函数或内联 asm 来解决它。

(或者改用 GPU 或 SIMD；如果您对许多元素有相同的除数，请参阅 https://libdivide.com/ SIMD 计算一次乘法逆并重复应用它。)

_udiv64 is available从 Visual Studio 2019 RTM 开始。

在 C 模式 ( -TC ) 中，它显然总是被定义的。在 C++ 模式下，您需要 #include <immintrin.h> ，根据 Microsoft 文档。或 intrin.h .

https://godbolt.org/z/vVZ25L (或者 on Godbolt.ms 因为 Godbolt 主站点上最近的 MSVC 不工作¹。)

#include <stdint.h>
#include <immintrin.h>       // defines the prototype

// pre-condition: a > b else 64/32-bit division overflows
uint32_t ScaledDiv(uint32_t a, uint32_t b) 
{
    uint32_t remainder;
    uint64_t d = ((uint64_t) b) << 32;
    return _udiv64(d, a, &remainder);
}

int main() {
    uint32_t c = ScaledDiv(5, 4);
    return c;
}

_udiv64 将产生 64/32 格。左右两个移位是一个遗漏的优化。

;; MSVC 19.20 -O2 -TC
a$ = 8
b$ = 16
ScaledDiv PROC                                      ; COMDAT
        mov     edx, edx
        shl     rdx, 32                             ; 00000020H
        mov     rax, rdx
        shr     rdx, 32                             ; 00000020H
        div     ecx
        ret     0
ScaledDiv ENDP

main    PROC                                            ; COMDAT
        xor     eax, eax
        mov     edx, 4
        mov     ecx, 5
        div     ecx
        ret     0
main    ENDP

所以我们可以看到 MSVC 不会通过 _udiv64 进行持续传播, 即使在这种情况下它没有溢出并且它可能已经编译了 main只是mov eax, 0ccccccccH/ret .

更新#2 https://godbolt.org/z/n3Dyp-添加了英特尔 C++ 编译器的解决方案，但这效率较低，并且会破坏常量传播，因为它是内联 asm。

#include <stdio.h>
#include <stdint.h>

__declspec(regcall, naked) uint32_t ScaledDiv(uint32_t a, uint32_t b) 
{
    __asm mov edx, eax
    __asm xor eax, eax
    __asm div ecx
    __asm ret
    // implicit return of EAX is supported by MSVC, and hopefully ICC
    // even when inlining + optimizing
}

int main()
{
    uint32_t a = 3 , b = 4, c = ScaledDiv(a, b);
    printf( "(%u << 32) / %u = %u\n", a, b, c);
    uint32_t d = ((uint64_t)a << 32) / b;
    printf( "(%u << 32) / %u = %u\n", a, b, d);
    return c != d;
}

脚注 1:Matt Godbolt 的主要站点的非 WINE MSVC 编译器暂时(？)消失了。微软运行https://www.godbolt.ms/在真正的 Windows 上托管最近的 MSVC 编译器，并且通常主要的 Godbolt.org 站点中继到 MSVC。)

godbolt.ms 似乎会生成短链接，但不会再次扩展它们!无论如何，完整链接更好，因为它们可以抵抗链接失效。

关于c - 我如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56657236/

24

4

0

文章推荐： html - 在 SetEnvIf 中添加多个条件

MSVC: what compiler switches affect the size of structs?(MSVC：哪些编译器开关会影响结构的大小？)
我有两个单独编译的DLL，一个是从Visual Studio2008编译的，另一个是从MATLAB编译的MEX文件。这两个DLL都包含一个头文件。当我获取一个DLL中的结构sizeof()时，它返回4
MSVC 19.37 doesn't consistently warn on assignment in if statements(MSVC 19.37在IF语句中的赋值时不一致地发出警告)
一位同事更喜欢尤达的条件：。这在团队中是一种有争议的风格，并且提出的一个论点是，如果(x=0)，编译器可以一致地发出警告来检测错误模式。。然而，msvc似乎没有检测到类(https://godbolt
c++ - 此 getline 测试在 MSVC 2012 中有效，但在 MSVC 2015 中出错，如何修复？
while (getline(stream, thisword, ' ') != 0) {... 我可以在 MSVC 2012 下编译这一行。通过传递一个“SPC”字符作为字符串分隔符，它应该测试输入
c++ - LNK2001 在 VS 2013 (MSVC 18) 但不是在 VS 2015 (MSVC 19)
我使用较早版本的 Cocos2dx 编写游戏并使用 VS 2013 对其进行编译。请注意，我使用的是 CMake 和 Qt Creator 以及两个编译器版本。当 Cocos2dx v3.12 出来时
Python包安装错误-找不到py_compiler msvc
我正在尝试在 Windows 10 64 位下的 Python 3.8.3 上安装 chatterbot 包并遇到一个奇怪的错误，我怀疑它一定与某些目录或 PATH 设置有关，我希望这是一个简单的修复
c++ - MSVC 是否错误地处理依赖名称中的模板关键字？
知乎Where and why do we have to put the template and typename keywords , 我很惊讶地得知 MSVC accepts以下代码: str
c++ - MSVC 无法返回可以复制但不能移动的对象
在摆弄复制省略时，我遇到了这种奇怪的行为: class Obj { public: Obj() = default; Obj(Obj&&) = delete; Obj(const Obj
c++ - MSVC 中可能的编译器错误
以下代码使用 gcc 和 clang(以及许多其他 C++11 编译器)进行编译 #include typedef int datatype; template struct to_datatyp
使用 MSVC 命令行创建动态库
我已经阅读了很多帖子，但我不明白如何在命令行中使用 MSVC 在 Windows 上创建一个简单的动态库。我正在做的是: 1º) 编写 DLL 代码动态.h #pragma once __decls
c++ - MSVC:具有模板化转换运算符和多重继承的错误
我有以下代码无法与MSVC一起编译。使用gcc，clang和icc可以正常编译。我想这是个错误，对不对？您有/知道一些解决方法吗？ #include struct A { template
使用 MSVC 命令行创建动态库
我已经阅读了很多帖子，但我不明白如何在命令行中使用 MSVC 在 Windows 上创建一个简单的动态库。我正在做的是: 1º) 编写 DLL 代码动态.h #pragma once __decls
C++ MSVC - 显示未捕获的异常消息
我有一个简单的 C++ 代码，我尝试使用 Visual Studio 2019 进行编译: #include #include int main() { std::cout << "Hel
我可以告诉 MSVC 编译器不要使用某个寄存器吗？
有没有办法告诉MSVC编译器在短时间内不要修改某个寄存器？就像在一个小循环中，告诉它不要使用 ebx 寄存器(它可以使用任何其他寄存器)。在这种情况下，压入和弹出寄存器不起作用，因为在我将其弹出后，M
c - MSVC 中的伪寄存器
Borland C 有伪寄存器 _AX、_BX、_FLAGS 等，可以在“C”代码中使用它们将寄存器保存到临时变量。是否有任何 MSVC 等效项？我尝试了@AX、@BX等，但编译器(MSVC1.5)
c++ - MSVC++ 错误代码或协同程序编译错误
美好的一天，我在 C++ 中尝试新事物，我发现 Visual Studio 中的调试和发布配置给我不同的结果。 #include #include #include #include #in
c++ - MSVC 的虚方法崩溃
我想我在 MSVC 的编译器(MSVC Ultimate 2012 版本 11.0.61030.00 更新 4)中发现了一个错误。 #include "stdafx.h" class Base { p
c++ - MSVC 环境变量未显示在不同的终端中
我正在使用 Haxe 的 HXCPP 生成 C++ 代码并使用 Microsoft Visual Studio 2010 Express Edition 对其进行编译。我正在关注 this指南，它会要
c++ - MSVC 链接到调试版本中的发布库而不是调试版本
我正在使用 Microsoft Visual Studio 2008 (C++)。我有一个要在 Debug模式下构建的解决方案。我引用了一些第三方库(例如 MyGUI)。在调试构建结束时，链接器给出了
c++ - MSVC 处理大量包含路径
老计算机程序员遇到新问题:-) 我正在将一个 CMake 文件项目移至 Visual Studio，并且该 CMake 项目中有数百个包含路径。我当然可以一劳永逸地修补它们，但这会经常发生在不同的机
c++ - MSVC 函数分解
我有下一个功能: namespace TEST { class TEST { int a; int b; }; } namespace UNION_TE

首页

博学

6Ren·AI

商城

c - 我如何指示 MSVC 编译器使用 64 位/32 位除法而不是较慢的 128 位/64 位除法？