c++ - 为什么自定义循环更快？糟糕的编译器？不安全的自定义代码？运气？(幸运缓存命中)-6ren

c++ - 为什么自定义循环更快？糟糕的编译器？不安全的自定义代码？运气？(幸运缓存命中)

转载作者：塔克拉玛干更新时间：2023-11-03 08:09:52

我刚刚开始学习汇编并使用 C++ 的 asm{} 主体和 C-Free 5.0 中的 Digital-Mars 编译器制作一些自定义循环来交换两个变量

启用-o(优化)

并得到结果:

 time of for-loop(cycles)        844
 time of while-loop(cycles)      735
 time of custom-loop-1(cycles)   562
 time of custom-loop-2(cycles)   469

我找不到要比较的 Digital-Mars 编译器“asm 输出”选项。构建选项中没有其他优化选项。我应该改变我的编译器吗？如果有，是哪一个？你能看看下面的代码并告诉我为什么自定义循环更快吗？

这是标准的 for 循环:

t1=clock(); 
for(int i=0;i<200000000;i++)
{
    temp=a;//instruction 1
    a=b;//instruction 2
    b=temp;//3 instructions total   
}   
t2=clock();
printf("\n time of for-loop(increasing) %i  \n",(t2-t1));

这是标准的 while 循环:

t1=clock();
while(j<200000000)
{
    temp=a;//again it is three instructions
    a=b;
    b=temp; 
            j++;
}
t2=clock();
printf("\n time of while-loop(cycles)  %i  \n",(t2-t1));

这是我的自定义循环 1:

t1=clock();
j=200000000;//setting the count
    __asm
    {
        pushf           //backup
        push eax        //backup
        push ebx        //backup
        push ecx        //backup
        push edx        //backup

        mov ecx,0       //init of loop range(0 to 200000000)
        mov edx,j

        do_it_again:    //begin to loop


        mov eax,a       //basic swap steps between cpu and mem(cache)
        mov ebx,b       
        mov b,eax       
        mov a,ebx       //four instructions total

        inc ecx         // j++
        cmp ecx,edx     //i<200000000  ?
        jb do_it_again  // end of loop block

        pop edx     //rolling back to history   
        pop ecx         
        pop ebx         
        pop eax         
        popf            
    }

t2=clock();
printf("\n time of custom-loop-1(cycles)   %i   \n",(t2-t1));

这是我的第二个自定义循环:

t1=clock();
j=200000000;//setting the count
    __asm
    {
        pushf           //backup
        push eax        
        push ebx        
        push ecx        
        push edx        

        mov ecx,0       //init of loop range(0 to 200000000)
        mov edx,j

        mov eax,a       //getting variables to registers
        mov ebx,b

        do_it_again2:   //begin to loop

        //swapping with using only 2 variables(only in cpu)
        sub eax,ebx         //a is now a-b
        add ebx,eax         //b is now a
        sub eax,ebx         //a is now -b
        xor eax,80000000h   //a is now b and four instructions total

        inc ecx         // j++
        cmp ecx,edx     //i<200000000  ?
        jb do_it_again2  // end of loop block

        pop edx         //rollback
        pop ecx         
        pop ebx         
        pop eax         
        popf            
    }

t2=clock();
printf("\n time of custom-loop-2(cycles)  %i   \n",(t2-t1));

完整代码:

#include<stdio.h>
#include<stdlib.h>
#include<time.h>

int main()
{
int j=0;

int a=0,b=0,temp=0;

srand(time(0));
time_t t1=0;
time_t t2=0;


t1=clock(); 
for(int i=0;i<200000000;i++)
{
    temp=a;//instruction 1
    a=b;//instruction 2
    b=temp;//3 instructions total   
}   
t2=clock();
printf("\n time of for-loop(cycles) %i  \n",(t2-t1));


t1=clock();
while(j<200000000)
{
    temp=a;//again it is three instructions
    a=b;
    b=temp; 
    j++;
}
t2=clock();
printf("\n time of while-loop(cycles)  %i  \n",(t2-t1));


t1=clock();
j=200000000;//setting the count
    __asm
    {
        pushf           //backup
        push eax        //backup
        push ebx        //backup
        push ecx        //backup
        push edx        //backup

        mov ecx,0       //init of loop range(0 to 200000000)
        mov edx,j

        do_it_again:    //begin to loop


        mov eax,a       //basic swap steps between cpu and mem(cache)
        mov ebx,b       
        mov b,eax       
        mov a,ebx       //four instructions total

        inc ecx         // j++
        cmp ecx,edx     //i<200000000  ?
        jb do_it_again  // end of loop block

        pop edx     //rolling back to history   
        pop ecx         
        pop ebx         
        pop eax         
        popf            
    }

t2=clock();
printf("\n time of custom-loop-1(cycles)   %i   \n",(t2-t1));


t1=clock();
j=200000000;//setting the count
    __asm
    {
        pushf           //backup
        push eax        
        push ebx        
        push ecx        
        push edx        

        mov ecx,0       //init of loop range(0 to 200000000)
        mov edx,j

        mov eax,a       //getting variables to registers
        mov ebx,b

        do_it_again2:   //begin to loop

        //swapping with using only 2 variables(only in cpu)
        sub eax,ebx         //a is now a-b
        add ebx,eax         //b is now a
        sub eax,ebx         //a is now -b
        xor eax,80000000h   //a is now b and four instructions total

        inc ecx         // j++
        cmp ecx,edx     //i<200000000  ?
        jb do_it_again2  // end of loop block

        pop edx         //rollback
        pop ecx         
        pop ebx         
        pop eax         
        popf            
    }

t2=clock();
printf("\n time of custom-loop-2(cycles)  %i   \n",(t2-t1));

return 0;

}

我刚刚在学习 C++ 和汇编，想知道事情进展如何。谢谢

windows xp, pentium 4 (2 GHz) Digital-Mars in C-Free

最佳答案

该编译器生成的代码非常糟糕。使用 objconv 反汇编目标文件后，这是我对第一个 for 循环的了解。

?_001:  cmp     dword [ebp-4H], 200000000               ; 0053 _ 81. 7D, FC, 0BEBC200
        jge     ?_002                                   ; 005A _ 7D, 17
        inc     dword [ebp-4H]                          ; 005C _ FF. 45, FC
        mov     eax, dword [ebp-18H]                    ; 005F _ 8B. 45, E8
        mov     dword [ebp-10H], eax                    ; 0062 _ 89. 45, F0
        mov     eax, dword [ebp-14H]                    ; 0065 _ 8B. 45, EC
        mov     dword [ebp-18H], eax                    ; 0068 _ 89. 45, E8
        mov     eax, dword [ebp-10H]                    ; 006B _ 8B. 45, F0
        mov     dword [ebp-14H], eax                    ; 006E _ 89. 45, EC
        jmp     ?_001                                   ; 0071 _ EB, E0

任何看过某个程序集的人都应该清楚这些问题。

循环非常依赖于 eax 中的值。这使得任何乱序执行几乎不可能，因为每条下一条指令都会在该寄存器上创建依赖关系。
有六个通用寄存器可用(因为 ebp 和 esp 在大多数设置中并不是真正通用的)，但是您的编译器使用它们中的无，退回到使用本地堆栈。当速度是优化目标时，这是绝对不能接受的。我们甚至可以看到当前循环索引存储在 [ebp-4H] 中，而它本来可以很容易地存储在寄存器中。
cmp 指令使用内存和立即操作数。这是最慢的操作数组合，在性能受到威胁时不应使用。
不要让我开始谈论代码大小。这些指令有一半是不必要的。

总而言之，我要做的第一件事就是尽早放弃该编译器。但话又说回来，看到它提供“内存模型”作为其选项之一，似乎真的不能抱太大希望。

关于c++ - 为什么自定义循环更快？糟糕的编译器？不安全的自定义代码？运气？(幸运缓存命中)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11529778/

文章推荐： c++ - 声明没有大小的第二个数组

文章推荐： c++ - 结构变量包含什么？

文章推荐： c++ - 从数组中删除零并将数组的大小调整为新的元素数量？

文章推荐： c++ - 奇怪的 sizeof() 结果

java - JSR 107 - 缓存 (JCache) 与 CPU 缓存
我阅读了有关 JSR 107 缓存 (JCache) 的内容。我很困惑:据我所知，每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。那么，为什么我们需要 Java 缓存处理程序？ (如果C
jquery - 使用 jQuery 缓存，缓存 jQuery Sortable 对象
好吧，我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此，鉴于此链接:http://jqueryui.com/sortable/#dis
hibernate 缓存？
我正在使用 Struts 2 和 Hibernate。我有一个简单的表，其中包含一个日期字段，用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。我遇到的问题是hibernate更
缓存-修复浏览器本地缓存页面
我有点不确定这里发生了什么，但是我试图解释正在发生的事情，也许一旦我弄清楚我到底在问什么，就可能写一个更好的问题。我刚刚安装了Varnish，对于我的请求时间来说似乎很棒。这是一个Magneto 2
haskell 缓存
解决 Project Euler 的问题后，我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
Python包代理/缓存
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发，作者推荐 devpi，请参见此处:https://bitbuc
缓存 WebSocket
我想到的一个问题是可以从一开始就缓存网络套接字吗？在我的拓扑中，我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
Linux内存管理(缓存)
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里？它们之间的主要区别是什么？据我了解，页面缓存是主内存的一部分，用于存储从 I/O 设备获取的
LeetCode_数据结构设计_困难_460. LFU 缓存
1.题目请你为最不经常使用（LFU）缓存算法设计并实现数据结构。实现 LFUCache 类： LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
LeetCode_数据结构设计_中等_146. LRU 缓存
1.题目请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCache 类： ① LRUCache(int capacity) 以正整数作为容量 capacity
Django 缓存 - 删除某些页面的缓存
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
WiX ExePackage 缓存
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
Docker 缓存，它是如何工作的？
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户，并且每个人都在运行相同的 Dockerfile，但将镜像存储为 user1_myapp . user2 将其存储为 use
Codeigniter - 缓存 - 服务器？
在 Codeigniter 中没有出现缓存问题几年后，我发现了一个问题。我在其他地方看到过该问题，但没有适合我的解决方案。例如，如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
caching - Janusgraph 缓存
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存，我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。如果我只对例如进行读取
javascript - 有没有办法从终端重新启动无效/缓存？
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。谢谢! 最佳答案 According to a JetBrains employe
python - 带有默认可选参数的内存/缓存
我想制作一个 python 装饰器来内存函数。例如，如果 @memoization_decorator def add(a, b, negative=False): print "Com
jquery - 缓存 $(this) 是否会带来性能提升？
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数，我的代码会获得任何显着的额外性能吗？
使用模式匹配禁止 Varnish 缓存
是的，我要说实话，我不知道varnish vcl，我可以解决一些基本问题，但是我不太清楚，这就是为什么我遇到问题了。我正在尝试通过http请求设置缓存禁止，但是该请求不能通过DNS而是通过 Varn
Varnish 缓存-无法处理4000个并发用户
在 WP 站点上加载约 4000 个并发用户时遇到此问题。这是我的配置: F5 负载均衡器 ---> Varnish 4，8 核，32 Gb RAM ---> 9 个后端，4 个核，每个 16 RA

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 为什么自定义循环更快？糟糕的编译器？不安全的自定义代码？运气？(幸运缓存命中)