c - x64 操作系统上 x32 ELF 的除法性能-6ren

c - x64 操作系统上 x32 ELF 的除法性能

转载作者：可可西里更新时间：2023-11-01 14:47:40

33

4

在下面的示例中，在 64 位架构上运行 32 位 ELF 速度更快，我不明白为什么。我尝试了两个示例，一个使用除法，另一个使用乘法。表现符合预期，但该部门的表现令人惊讶。

我们在汇编中看到编译器正在调用 _alldiv，它在 32 位架构上模拟 64 位除法，因此它一定比简单地使用汇编指令 idiv 慢。所以我不明白我得到的结果:

我的设置是:Windows 10 x64，Visual Studio 2019

我使用 Measure-Command { .\out.exe } 为代码计时:

乘法
- 32 位 ELF:3360 毫秒
- 64 位 ELF:1469 毫秒
部门
- 32 位 ELF:7383 毫秒
- 64 位 ELF:8567 毫秒

代码

#include <stdio.h>
#include <stdlib.h>
#include <stdint.h>
#include <limits.h>
#include <Windows.h>

volatile int64_t m = 32;
volatile int64_t n = 12;
volatile int64_t result;

int main(void)
{
    for (size_t i = 0; i < (1 << 30); i++)
    {
#       ifdef DIVISION
        result = m / n;
#       else 
        result = m * n;
#       endif
        m += 1;
        n += 3;
    }
}

64位反汇编(划分)

    for (size_t i = 0; i < (1 << 30); i++)
00007FF60DA81000  mov         r8d,40000000h  
00007FF60DA81006  nop         word ptr [rax+rax]  
    {
        result = m / n;
00007FF60DA81010  mov         rcx,qword ptr [n (07FF60DA83038h)]  
00007FF60DA81017  mov         rax,qword ptr [m (07FF60DA83040h)]  
00007FF60DA8101E  cqo  
00007FF60DA81020  idiv        rax,rcx  
00007FF60DA81023  mov         qword ptr [result (07FF60DA83648h)],rax  
        m += 1;
00007FF60DA8102A  mov         rax,qword ptr [m (07FF60DA83040h)]  
00007FF60DA81031  inc         rax  
00007FF60DA81034  mov         qword ptr [m (07FF60DA83040h)],rax  
        n += 3;
00007FF60DA8103B  mov         rax,qword ptr [n (07FF60DA83038h)]  
00007FF60DA81042  add         rax,3  
00007FF60DA81046  mov         qword ptr [n (07FF60DA83038h)],rax  
00007FF60DA8104D  sub         r8,1  
00007FF60DA81051  jne         main+10h (07FF60DA81010h)  
    }
}

32位反汇编(除法)

    for (size_t i = 0; i < (1 << 30); i++)
00A41002  mov         edi,40000000h  
00A41007  nop         word ptr [eax+eax]  
    {
        result = m / n;
00A41010  mov         edx,dword ptr [n (0A43018h)]  
00A41016  mov         eax,dword ptr ds:[00A4301Ch]  
00A4101B  mov         esi,dword ptr [m (0A43020h)]  
00A41021  mov         ecx,dword ptr ds:[0A43024h]  
00A41027  push        eax  
00A41028  push        edx  
00A41029  push        ecx  
00A4102A  push        esi  
00A4102B  call        _alldiv (0A41CD0h)  
00A41030  mov         dword ptr [result (0A433A0h)],eax  
00A41035  mov         dword ptr ds:[0A433A4h],edx  
        m += 1;
00A4103B  mov         eax,dword ptr [m (0A43020h)]  
00A41040  mov         ecx,dword ptr ds:[0A43024h]  
00A41046  add         eax,1  
00A41049  mov         dword ptr [m (0A43020h)],eax  
00A4104E  adc         ecx,0  
00A41051  mov         dword ptr ds:[0A43024h],ecx  
        n += 3;
00A41057  mov         eax,dword ptr [n (0A43018h)]  
00A4105C  mov         ecx,dword ptr ds:[0A4301Ch]  
00A41062  add         eax,3  
00A41065  mov         dword ptr [n (0A43018h)],eax  
00A4106A  adc         ecx,0  
00A4106D  mov         dword ptr ds:[0A4301Ch],ecx  
00A41073  sub         edi,1  
00A41076  jne         main+10h (0A41010h)  
    }
}

编辑

进一步调查 Chris Dodd ，我稍微修改了我的代码如下:

volatile int64_t m = 32000000000;
volatile int64_t n = 12000000000;
volatile int64_t result;

这次我得到了这些结果:

部门
- 32 位 ELF:22407 毫秒
- 64 位 ELF:17812 毫秒

最佳答案

如果你看instruction timings for x86 processors ，事实证明，在最近的 Intel 处理器上，64 位除法的成本是 32 位除法的 3-4 倍——如果你看一下 alldiv 的内部结构(链接在上面的评论中)，你的值(value)观将始终适合 32 位，它将使用单个 32 位除法...

关于c - x64 操作系统上 x32 ELF 的除法性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57389985/

33

4

0

文章推荐： javascript - 如何从 AngularJS 指令中选择动态生成的元素？

文章推荐： jquery - 在移动设备上滚动内容溢出的固定 div

文章推荐： Hadoop 与 supercsv

elf - .ELF 文件是什么？
我们正在为大学编写一个模拟器项目，我们必须使用 ELF 文件作为输入，但我们不太确定 ELF 文件是什么样的。它应该包含我们可以执行的某些操作(所有这些都应该用二进制表示)，但它是否包含其他内容？还是
linux - ELF 格式 : is ELF a subset of . o/.so 还是 ELF 基本上是整个 .o/.so？
我目前正在研究 ELF 格式。我想确认一下我认为正确的事情。 ELF是一种格式，它代表可执行和可链接格式。在linux中，一切都是ELF格式。当使用gcc编译带有-c和-fPIC文件的代码时，它会将
elf - 更改 elf 调试信息中列出的源文件
基本上，我希望能够在 elf 二进制文件的 debug dwarf 部分中更改源文件的路径。最佳答案 Basically I want to be able to change the path t
elf - 如何从 ELF 二进制文件中删除程序头
我想编写一个实用程序来从 ELF 二进制文件中删除程序头。例如，当我运行 readelf -l/my/elf 时，我会得到所有程序头的列表:PHDR INTERP ... GNU_STACK GNU_
elf - 如何获取 ELF 符号表中的条目数？
考虑使用 GCC 编译的 C 标准 hello world 程序，没有任何开关。如 readelf -s说，它包含 64 个符号。它还说.symtab部分是 1024 字节长。然而，每个符号表条目有
elf - 如何动态加载可重定位的 ELF 可执行文件？
我正在尝试为 ARM 平台编写 elf 可执行加载程序。我在这里有一些查询 1) 如何生成可重定位或位置无关的 ELF 可执行文件(编译器和链接器选项是什么) 2) 如何加载上面生成的 ELF 可执行
elf - 在 elf 二进制文件中查找所有函数定义的方法
假设我有一个 lib xxx.so。所以我得到了所有的函数名和参数以下命令: readelf -Ws xxx.so |c++filt 它将输出以下内容: 711: 00270209 40
elf - 可用的 ELF 可执行文件需要哪些部分？
我正在创建一个 ELF 可执行文件，我需要知道操作系统需要哪些部分才能加载和执行它。 Details: OS: Ubuntu 10.04 (64-bit)Kernel ve
elf - ELF 中的 SHT_NULL 部分有什么用？
SHT_NULL的目的是什么？ ELF 中的部分? 它是由操作系统还是加载程序引用的？这个部分的大小是多少？它与 NULL 指针有什么关系吗？此外，为什么此部分在部分段映射中没有条目？来自 E
elf - 对于 ELF 文件，如何判断哪个部分包含执行二进制代码？
我正在学习 ELF 并且有一段时间的疑问。我试图寻找答案，但徒劳无功。如果有人能给我答案或引导我到地方寻找答案，我会很感激。我读到的几乎所有关于 ELF 的文档都说 .text 部分包含可执行的二进
elf - Trace32 命令从 ELF 文件中读取符号内容
问题场景 : 简单来说，我们是否有一个 Trace32 命令来从加载到目标的 ELF 文件中读取符号(及其内容)？我们有这种特殊情况，其中 ELF 文件的应用程序特定调试符号作为 ELF 中“.nol
elf - 从 elf/obj 文件中提取字符串变量
我试图从 Linux 程序的 elf 文件中提取特定的字符串变量(即符号)，甚至从它来自的 .o 中提取。它在 .rodata 部分，显然我知道符号名称。是否有一系列 objdump 样式的命令和
elf - 真的需要 ELF .notes 部分吗？
在 Linux 上，我试图将静态链接的 ELF 文件剥离为基本要素。当我运行时: strip --strip-unneeded foo 或者 strip --strip-all foo 生成的文件仍然
elf - ELF 文件的大小与 RAM 中的大小
我有一个 STM32，我将 ELF 文件加载到 RAM 中(使用 OpenOCD 和 JTAG)。到目前为止，我还没有真正关注我加载的 ELF 文件的大小。通常，当我编译一个对我的板来说太大的 EL
elf - ELF 文件的大小与 RAM 中的大小
我有一个 STM32，我将 ELF 文件加载到 RAM 中(使用 OpenOCD 和 JTAG)。到目前为止，我还没有真正关注我加载的 ELF 文件的大小。通常，当我编译一个对我的板来说太大的 EL
elf - 手动创建的 ELF 可执行文件因 SIGSEGV 而崩溃
我需要学习手动创建 ELF 可执行文件。到目前为止，我一直在使用在线指南，例如: Manually Creating an ELF Executable ELF reference 几次失败后，我将我
elf - Elf-file 的 ".group"部分的指定是什么？
我在 readelf 实用程序的帮助下打开了我的对象 Sprite 文件: readelf -a ./my_object.o |较少的结果我得到了很多有趣的信息。我在部分表中看到了一个带有“GRO
elf - ELF 文件中的重定位加数 - Elf64_Rel 与 Elf64_Rela？
ELF 文件包含两个结构来处理重定位: Elf64_Rel: typedef struct { Elf64_Addr r_offset; Uint64_t r_info; }
elf - 在 ELF 文件中，_start 的地址是如何确定的？
我一直在阅读 ELF 规范，但无法弄清楚程序入口点和 _start 地址从何而来。看起来他们应该在一个非常一致的地方，但我做了一些琐碎的程序，_start 总是在不同的地方。谁能澄清一下？最佳答
c - 将库中的专用 ELF 部分合并到应用程序专用 ELF 部分
这是我的测试。我有一个由源 main.c 和 misc.c 组成的 main 应用程序和一个由 lib.cname); m++; } return 0; } misc.

首页

博学

6Ren·AI

商城