c++ - 为什么在x86上除以3需要右移(以及其他奇数)？-6ren

c++ - 为什么在x86上除以3需要右移(以及其他奇数)？

转载作者：行者123 更新时间：2023-12-01 09:05:43

我具有以下C/C++函数:

unsigned div3(unsigned x) {
    return x / 3;
}

When compiled using clang 10的 -O3，结果为:

div3(unsigned int):
        mov     ecx, edi         # tmp = x
        mov     eax, 2863311531  # result = 3^-1
        imul    rax, rcx         # result *= tmp
        shr     rax, 33          # result >>= 33
        ret

我的理解是:除以3等于乘以乘积逆3-1 mod 232，即2863311531。
有些事情我还是不明白:

为什么我们需要完全使用ecx/rcx？我们不能直接将rax与edi相乘吗？

为什么我们要在64位模式下进行乘法运算？将eax和ecx相乘不是更快吗？

为什么我们使用imul而不是mul？我认为模块化算术将是无符号的。

最后的33位右移是怎么回事？我以为我们可以丢弃最高的32位。

编辑1
对于那些不理解3-1 mod 232我的意思的人，我在这里谈论的是乘法逆。
例如:

// multiplying with inverse of 3:
15 * 2863311531      = 42949672965
42949672965 mod 2^32 = 5

// using fixed-point multiplication
15 * 2863311531      = 42949672965
42949672965 >> 33    = 5

// simply dividing by 3
15 / 3               = 5

因此，与42949672965乘以实际上等于除以3。我假设clang的优化实际上是基于模块化算法的，而实际上它是基于定点算法的。
编辑2
我现在已经知道，乘法逆仅可用于除法运算，而无余数。例如，将3-1乘以1等于3-1，而不是零。只有定点算法才具有正确的舍入。
不幸的是，即使在可能的情况下，clang也不使用模块化算术，在这种情况下，模块化算术只是一个 imul指令。以下函数具有与上面相同的编译输出。

unsigned div3(unsigned x) {
    __builtin_assume(x % 3 == 0);
    return x / 3;
}

(关于精确除法的定点乘法逆的规范问答，该逆适用于每种可能的输入: Why does GCC use multiplication by a strange number in implementing integer division?-不太重复，因为它仅涵盖数学，而不包括某些实现细节，如寄存器宽度和imul vs. mul。)

最佳答案

Can't we multiply rax with edi directly?

我们不能使用 imul rax, rdi，因为调用约定允许调用者在RDI的高位上留下垃圾。仅EDI部分包含该值。内联时这不是问题；编写32位寄存器确实会将零扩展到完整的64位寄存器，因此编译器通常不需要额外的指令即可对32位值进行零扩展。
(如果不能避免，最好使用 limitations on mov-elimination零扩展到另一个寄存器中)。
从字面上看，甚至没有问题，x86没有任何乘法指令对它们的输入之一进行零扩展以使您将32位和64位寄存器相乘。两个输入的宽度必须相同。

Why do we multiply in 64-bit mode?

(术语:所有这些代码都在64位模式下运行。您在问为什么64位操作数大小如此。)
您可以使用 mul edi将EAX与EDI相乘以在EDX:EAX上获得64位结果，但是在Intel CPU上 mul edi是3 uops，而在大多数现代x86-64 CPU上具有快速64位 imul。 (尽管 imul r64, r64在AMD Bulldozer系列以及某些低功耗CPU上速度较慢。) https://uops.info/和 https://agner.org/optimize/(指令表和Microarch PDF)
(有趣的事实: mul rdi实际上在Intel CPU上更便宜，只有2 oups。也许不必对整数乘法单元的输出进行额外的拆分，例如 mul edi将不得不拆分64位低半倍数乘法器输出分成EDX和EAX一半，但对于64x64 => 128位多的像素自然会发生这种情况。)
另外，您需要的部分在EDX中，因此您需要另一个 mov eax, edx来处理它。 (同样，因为我们正在寻找的是该函数的独立定义的代码，而不是在内联到调用方之后。)
GCC 8.3和更早版本的确使用32位 mul而不是64位 imul( https://godbolt.org/z/5qj7d5)。当Bulldozer系列和旧的Silvermont CPU更加相关时，对于 -mtune=generic来说并不疯狂，但是对于最近的GCC而言，这些CPU在过去更遥远，其通用调整选择反射(reflect)了这一点。不幸的是，GCC还浪费了 mov指令将EDI复制到EAX，使这种方式看起来更糟:/

# gcc8.3 -O3  (default -mtune=generic)
div3(unsigned int):
        mov     eax, edi                 # 1 uop, stupid wasted instruction
        mov     edx, -1431655765         # 1 uop  (same 32-bit constant, just printed differently)
        mul     edx                      # 3 uops on Sandybridge-family
        mov     eax, edx                 # 1 uop
        shr     eax                      # 1 uop
        ret
                                  # total of 7 uops on SnB-family

mov eax, 0xAAAAAAAB/ mul edi只能是6 oups，但仍然比:

# gcc9.3 -O3  (default -mtune=generic)
div3(unsigned int):
        mov     eax, edi                # 1 uop
        mov     edi, 2863311531         # 1 uop
        imul    rax, rdi                # 1 uop
        shr     rax, 33                 # 1 uop
        ret
                      # total 4 uops, not counting ret

不幸的是，64位 0x00000000AAAAAAAB不能表示为32位符号扩展的立即数，因此 imul rax, rcx, 0xAAAAAAAB无法编码。这将意味着 0xFFFFFFFFAAAAAAAB。

Why are we using imul instead of mul? I thought modular arithmetic would be all unsigned.

它是未签名的。输入的符号仅影响结果的上半部分，但是 imul reg, reg不会产生结果的上半部分。只有operate形式的 mul和 imul是NxN => 2N的完全乘法，因此只有它们需要单独的有符号和无符号版本。
只有 imul才具有更快，更灵活的低半值形式。关于 imul reg, reg签署的唯一一件事是，它基于下半部分的签署溢出设置OF。仅拥有一个 mul r,r与 imul r,r唯一的区别是FLAGS输出是不值得花费更多的操作码和更多的晶体管的。
英特尔手册( https://www.felixcloutier.com/x86/imul)甚至指出了它可以用于无符号的事实。

What's up with the 33-bit rightshift at the end? I thought we can just drop the highest 32-bits.

不，如果以这种方式实现，则没有乘数常量可以为每个可能的输入x提供正确的正确答案。 “按原样”优化规则不允许近似，仅允许对程序使用的每个输入产生完全相同的可观察行为的实现。如果不知道 x的值范围而不是整个 unsigned的值范围，则编译器没有该选项。 ( -ffast-math仅适用于浮点；如果需要更快的整数数学近似值，请按如下所示手动进行编码):
请参阅 Why does GCC use multiplication by a strange number in implementing integer division?，以获取有关编译器用于通过编译时间常数进行精确除法的定点乘法逆方法的更多信息。
有关此示例在一般情况下不起作用的示例，请参见我对 Divide by 10 using bit shifts?答案的修改，其中建议

// Warning: INEXACT FOR LARGE INPUTS
// this fast approximation can just use the high half,
// so on 32-bit machines it avoids one shift instruction vs. exact division
int32_t div10(int32_t dividend)
{
    int64_t invDivisor = 0x1999999A;
    return (int32_t) ((invDivisor * dividend) >> 32);
}

当 div10(1073741829) = 107374183实际上是107374182时，它的第一个错误答案(如果从0向上循环)是 1073741829/10。(它应四舍五入，而不是像C整数除法那样四舍五入。)

从您的编辑中，我看到您实际上是在谈论使用乘法结果的下半部分，显然，该结果对于从UINT_MAX一直到精确的倍数都非常适用。
如您所说，当除法有余数时，例如截断为32位而不是 16 * 0xaaaaaaab时， 0xaaaaaab0 = 5。

unsigned div3_exact_only(unsigned x) {
    __builtin_assume(x % 3 == 0);  // or an equivalent with if() __builtin_unreachable()
    return x / 3;
}

是的，如果该数学方法可行，则编译器使用32位imul实现该方法是合法且最佳的。他们不寻求这种优化，因为这鲜为人知。如果值得在编译时间方面增加编译器代码甚至寻找优化，则IDK值得一提，更不用说在开发人员时间中的编译器维护成本了。在运行时成本上并没有很大的差异，而且几乎不可能实现。很好，但是。

div3_exact_only:
    imul  eax, edi, 0xAAAAAAAB        # 1 uop, 3c latency
    ret

但是，至少在已知类型宽度(例如 uint32_t)中，您可以在源代码中完成此操作:

uint32_t div3_exact_only(uint32_t x) {
    return x * 0xaaaaaaabU;
}

关于c++ - 为什么在x86上除以3需要右移(以及其他奇数)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63417818/

文章推荐： python - 如何从另一个线程更新 GUI？使用Python

文章推荐： Python 与 Jinja 验证

文章推荐： java - 从我的 Android 应用程序启动 Viber 调用请求

文章推荐： symfony1 - symfony2 生产准备好了吗？

c - gstreamer 需要 g_main_loop_run 而 gtk 需要 gtk_main()
我正在尝试用 C 语言编写一个使用 gstreamer 的 GTK+ 应用程序。 GTK+ 需要 gtk_main() 来执行。 gstreamer 需要 g_main_loop_run() 来执行。
python - 为什么 opencv3 需要 libavcodec56 而 opencv2 需要 libavcodec57
我已经使用 apt-get 安装了 opencv。我得到了以下版本的opencv2，它工作正常: rover@rover_pi:/usr/lib/arm-linux-gnueabihf $ pytho
ios - UIScrollView - 需要 x 位置/宽度的约束，需要 y 位置/高度的约束
我有一个看起来像这样的 View 层次结构(基于其他答案和 Apple 的使用 UIScrollView 的高级 AutoLayout 指南): ScrollView 所需的2 个步骤是: 为 Scr
Linux glib 需要 pkg-config 而 pkg-config 需要 glib？
我尝试安装 udev。 udev 在 ./configure 期间给我一个错误 --exists: command not found configure: error: pkg-config and
sql - 为什么我选择 1 需要 40 毫秒，而选择 150 需要 500 秒？
我正在使用 SQLite 3。我有一个表，forums，有 150 行，还有一个表，posts，有大约 440 万行。每个帖子都属于一个论坛。我想从每个论坛中选择最新帖子的时间戳。如果我使用 SEL
Golang jsonapi 需要 string 或 int 但 mongo 需要 bson.ObjectId
使用 go 和以下包: github.com/julienschmidt/httprouter github.com/shwoodard/jsonapi gopkg.in/mgo.v2/bson
sql-server - 同样的 SQL 请求，CockroachDB 需要 4min SQL Server 需要 35ms。我错过了什么吗？
The database仅包含 2 个表: 钱包(100 万行) 事务(1500 万行) CockroachDB 19.2.6 在 3 台 Ubuntu 机器上运行每个 2vCPU 每个 8GB R
c++ - std::iter_swap 需要 ValueSwappable args vs std::swap 需要 Move Assignable args
我很难理解为什么在下面的代码中直接调用 std::swap() 会导致编译错误，而使用 std::iter_swap 编译却没有任何错误. 来自 iter_swap() versus swap() -
oracle - SELECT 需要 100 毫秒； CREATE table as select - 或 - INSERT into select 需要 15 分钟
我有一个非常简单的 SELECT *用 WHERE NOT EXISTS 查询条款。 SELECT * FROM "BMAN_TP3"."TT_SPLDR_55E63A28_59358" SELECT
css - Sass 循环 @import，a.scss 需要 b.scss 上的类，b.scss 需要 a.scss 上的类
我试图按部分组织我的 .css 文件，我需要从任何文件访问文件组中的任何类。在 Less 中，我可以毫无问题地创建一个包含所有文件导入的主文件，并且每个文件都导入主文件，但在 Sass 中，我收到一个
redis - Microsoft.AspNet.SignalR.Redis 需要 StackExchange.Redis.StrongName，但是 StackExchange.Redis.Extensions.Core 需要 StackExchange.Redis
Microsoft.AspNet.SignalR.Redis 和 StackExchange.Redis.Extensions.Core 在同一个项目中使用。前者需要StackExchange.Red
ruby-on-rails - sass-rails 需要 sprockets 2.0.0 但 rails 4.1.0 需要 sprockets 2.12.1
这个问题在这里已经有了答案: Updating from Rails 4.0 to 4.1 gives sass-rails railties version conflicts (4 个答案) 关
需要 Azure 发布管道身份验证
我们有一些使用 Azure DevOps 发布管道部署到的现场服务器。我们已经使用这些发布管道几个月了，没有出现任何问题。今天，我们在下载该项目的工件时开始出现身份验证错误。部署组中的节点显示在线，
需要 Firebase 索引但未提供链接
Tip: instead of creating indexes here, run queries in your code – if you're missing any indexes, you
需要 Elm 语法帮助
你能解释一下 Elm 下一个声明中的意思吗？ (=>) = (,) 我在 Elm architecture tutorial 的例子中找到了它最佳答案这是中缀符号。实际上，这定义了一个函数 (=>
需要 .NET 程序集查看器
我需要一个 .NET 程序集查看器，它可以显示低级详细信息，例如元数据表内容等。最佳答案 ildasm 是 IL 反汇编程序，具有低级托管元数据 token 信息。安装 Visual Studio
需要 VBA 循环逻辑
我有两个列表要在 Excel 中进行比较。这是一个很长的列表，我需要一个 excel 函数或 vba 代码来执行此操作。我已经没有想法了，因此转向你: **Old List** A
.net - 需要.NET库以将TIFF文件转换为PDF
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想要改善这个问题吗？更新问题，以便将其作为on-topi
需要 XML 命名空间吗？
我正在学习 xml 和 xml 处理。我无法很好地理解命名空间的存在。我了解到命名空间帮助我们在 xml 中分离相同命名的元素。我们不能通过具有相同名称的属性来区分元素吗？为什么命名空间很重要或需要
需要 Azure 端口吗？
我搜索了 Azure 文档、各种社区论坛和 google，但没有找到关于需要在公司防火墙上打开哪些端口以允许 Azure 所有组件(blob、sql、compute、bus、publish)的简洁声明

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 为什么在x86上除以3需要右移(以及其他奇数)？