c++ - vector 迭代编译成非常不同的指令-6ren

c++ - vector 迭代编译成非常不同的指令

转载作者：塔克拉玛干更新时间：2023-11-03 00:46:25

令我惊讶的是，使用最新的编译器对 vector 进行迭代会针对相同的结果显示截然不同的代码。这是代码:

void fun1(vector <uint8_t> &a,unsigned num) {

    for (auto &&value : a) {
        value += num;
    }
}

void fun2(vector <uint8_t> &a,unsigned num){

    for (uint32_t x = 0, p = a.size(); x < p; x++){
        a[x] += num;
    }
}
void fun4(vector <uint8_t> &a,unsigned num){

    for (uint32_t x = 0; x < a.size(); x++){
        a[x] += num;
    }
}
void fun3(vector <uint8_t> &a,unsigned num) {

    for (auto it = a.begin(); it!=a.end(); ++it) {
        *it += num;
    }
}
void fun5(vector <uint8_t> &a,unsigned num) {

    std::for_each(a.begin(), a.end(), [num](auto &&val) {
        val += num;
    });
}

您可以在 godbolt 上运行它.

生成的程序集非常不同(fun1 && fun5 甚至建议使用 SIMD)。我得到了 fun4 因为 a.size() 可能会改变。但其他人呢？不同的编译器近似于相同的结果。

编译器应该能够生成相同的代码，因为这里的意图非常基本(并且相同)。

我真的很喜欢fun2版本。有什么改进的方法吗？

更新:

当向编译器提供足够的信息时，这就不是问题了。因此它表明当前版本 (gcc 9.x) 中的编译器针对那些只有部分信息可访问的循环进行了不同的定制。

代码仍然不一样，但他们现在都提出了矢量化。我想我们将不得不接受它。也许 future 的版本会改进这一点。

See the updated code (with useless allocations, but still)

最佳答案

编译器现在针对乱序执行优化了代码。相同的 C++ 代码可以编译成不同的汇编代码。
所以，尽量不要为优化留下任何空间:-)

这里有两个fun4的版本:

void fun4_a(vector <uint8_t> &a, uint8_t num) {
    size_t n = a.size();
f1: if (n <= 0) goto f2;
    a[--n] += num;
    goto f1;
f2: return;
}

void fun4_b(vector <uint8_t> &a, uint8_t num) {
    size_t n = a.size();
    while (n > 0) a[--n] += num;
}

您可以在 godbolt 上运行它.

编译器 x86_64 gcc 9.1 为 fun4_a 和 fun4_b 生成了相同的程序集，但仍然展开了一个“添加”循环:

fun4_a(std::vector<unsigned char, std::allocator<unsigned char> >&, unsigned char):
        mov     rdx, QWORD PTR [rdi]
        mov     rax, QWORD PTR [rdi+8]
        mov     ecx, esi
        sub     rax, rdx
        je      .L1
        sub     rax, 1
        add     BYTE PTR [rdx+rax], sil
        test    rax, rax
        je      .L1
.L3:
        mov     rdx, QWORD PTR [rdi]
        sub     rax, 1
        add     rdx, rax
        add     BYTE PTR [rdx], cl
        test    rax, rax
        jne     .L3
.L1:

虽然编译器 x86-64 icc 19.0.1 决定对 fun4_b 进行更多优化:

fun4_a(std::vector<unsigned char, std::allocator<unsigned char> >&, unsigned char):
        mov       rcx, QWORD PTR [8+rdi]                        #806.26
        mov       rdx, rcx                                      #806.26
        mov       rax, QWORD PTR [rdi]                          #806.52
        sub       rdx, rax                                      #806.26
        je        ..B1.6        # Prob 18%                      #10.14
        xor       eax, eax                                      #10.5
..B1.3:                         # Preds ..B1.4 ..B1.2
        inc       rax                                           #10.5
        mov       r8, rcx                                       #9.11
        lea       r9, QWORD PTR [rax+rax]                       #9.11
        sub       r8, r9                                        #9.11
        neg       r9                                            #9.11
        add       r9, rdx                                       #9.11
        mov       rdi, r9                                       #9.11
        add       BYTE PTR [1+r8], sil                          #11.3
        inc       rdi                                           #9.11
        je        ..B1.6        # Prob 18%                      #10.14
        add       BYTE PTR [r8], sil                            #11.3
        test      r9, r9                                        #10.14
        jne       ..B1.3        # Prob 82%                      #10.14
..B1.6:                         # Preds ..B1.3 ..B1.4 ..B1.1
        ret                                                     #13.5
fun4_b(std::vector<unsigned char, std::allocator<unsigned char> >&, unsigned char):
        mov       r8d, esi                                      #16.47
        mov       rsi, QWORD PTR [rdi]                          #806.52
        mov       rcx, QWORD PTR [8+rdi]                        #806.26
        sub       rcx, rsi                                      #806.26
        je        ..B2.17       # Prob 50%                      #18.16
        cmp       rcx, 16                                       #18.5
        jb        ..B2.18       # Prob 10%                      #18.5
        mov       rdx, rsi                                      #18.5
        and       rdx, 15                                       #18.5
        je        ..B2.9        # Prob 50%                      #18.5
        mov       rax, rdx                                      #18.5
        neg       rax                                           #18.5
        lea       rdx, QWORD PTR [16+rax]                       #18.5
        add       rax, 32                                       #18.5
        cmp       rcx, rax                                      #18.5
        jb        ..B2.18       # Prob 10%                      #18.5
        mov       rax, rcx                                      #18.5
        xor       r10d, r10d                                    #18.5
        sub       rax, rdx                                      #18.5
        mov       r9, rsi                                       #18.5
        and       rax, 15                                       #18.5
        neg       rax                                           #18.5
        add       rax, rcx                                      #18.5
        mov       edi, r8d                                      #18.20
..B2.7:                         # Preds ..B2.7 ..B2.6
        inc       r10                                           #18.5
        add       BYTE PTR [r9], dil                            #18.20
        inc       r9                                            #18.5
        cmp       r10, rdx                                      #18.5
        jb        ..B2.7        # Prob 82%                      #18.5
        jmp       ..B2.10       # Prob 100%                     #18.5
..B2.9:                         # Preds ..B2.3
        mov       rax, rcx                                      #18.5
        and       rax, 15                                       #18.5
        neg       rax                                           #18.5
        add       rax, rcx                                      #18.5
..B2.10:                        # Preds ..B2.7 ..B2.9
        movzx     edi, r8b                                      #18.29
        movd      xmm0, edi                                     #18.29
        punpcklbw xmm0, xmm0                                    #18.29
        punpcklwd xmm0, xmm0                                    #18.29
        punpckldq xmm0, xmm0                                    #18.29
        punpcklqdq xmm0, xmm0                                   #18.29
..B2.11:                        # Preds ..B2.11 ..B2.10
        movdqu    xmm1, XMMWORD PTR [rsi+rdx]                   #18.20
        paddb     xmm1, xmm0                                    #18.20
        movdqu    XMMWORD PTR [rdx+rsi], xmm1                   #18.20
        add       rdx, 16                                       #18.5
        cmp       rdx, rax                                      #18.5
        jb        ..B2.11       # Prob 82%                      #18.5
..B2.13:                        # Preds ..B2.11 ..B2.18
        add       rsi, rax                                      #18.5
        cmp       rax, rcx                                      #18.5
        jae       ..B2.17       # Prob 9%                       #18.5
..B2.15:                        # Preds ..B2.13 ..B2.15
        inc       rax                                           #18.5
        add       BYTE PTR [rsi], r8b                           #18.20
        inc       rsi                                           #18.5
        cmp       rax, rcx                                      #18.5
        jb        ..B2.15       # Prob 82%                      #18.5
..B2.17:                        # Preds ..B2.15 ..B2.1 ..B2.13
        ret                                                     #19.1
..B2.18:                        # Preds ..B2.2 ..B2.4
        xor       eax, eax                                      #18.5
        jmp       ..B2.13       # Prob 100%                     #18.5

关于c++ - vector 迭代编译成非常不同的指令，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56390818/

文章推荐： android - 图像未保存在文件夹中

文章推荐： linux - iptables -j NFQUEUE 未知选项错误

mysql - 如何按 ASC 顺序获取 MySql 不同(不同)值
我有 table 像这样 -------------------------------------------- id size title priority
java - 不同 Activity 中的 AdMob 广告单元 ID 不同？提高匹配率？
我的应用在不同的 Activity (4 个 Activity )中仅包含横幅广告。所以我的疑问是，我可以对所有横幅广告使用一个广告单元 ID 吗？或者每个 Activity 使用不同的广告单元
没有isinstance的列表列表上的python递归(不同)
我有任意(但统一)数字列表的任意列表。 (它们是 n 空间中 bin 的边界坐标，我想绘制其角，但这并不重要。)我想生成所有可能组合的列表。所以:[[1,2], [3,4],[5,6]] 产生 [[1
Java自定义控件重绘导致绘制不正确(不同)
我刚刚在学校开始学习 Java，正在尝试自定义控件和图形。我目前正在研究图案锁，一开始一切都很好，但突然间它绘制不正确。我确实更改了一些代码，但是当我看到错误时，我立即将其更改回来(撤消，ftw)，但
sql - 分组依据汇总和计数(不同)
在获取 Distinct 的 Count 时，我在使用 Group By With Rollup 时遇到了一个小问题。问题是 Rollup 摘要只是所有分组中 Distinct 值的总数，而不是所有
sql - 如何对多列进行计数(不同)
这不起作用: select count(distinct colA, colB) from mytable 我知道我可以通过双选来简单地解决这个问题。 select count(*) from (
javascript - 为什么在比较时与 ""不同
这个问题在这里已经有了答案: JavaScript regex whitespace characters (5 个回答) 2年前关闭。你能解释一下为什么我会得到 false比较 text ===
javascript - [] 与 [] 不同
这个问题已经有答案了: 奥 git _a (56 个回答) 已关闭 9 年前。我被要求用 Javascript 编写一个函数 sortByFoo 来正确响应此测试: // Does not cras
sql - 在按单个列上的多个值进行内部联接查询过滤时选择“不同”？
所以，我不得不说，SQL 是迄今为止我作为开发人员最薄弱的一面。也许我想要完成的事情很简单。我有这样的东西(这不是真正的模型，但为了使其易于理解而不浪费太多时间解释它，我想出了一个完全模仿我必须使用的
javascript - 为什么在通过引用传递后调用函数时对象内部的 "this"不同？
这个问题在这里已经有了答案: How does the "this" keyword work? (22 个回答) 3年前关闭。简而言之:为什么在使用 Objects 时，直接调用的函数和通过引用传
C++ 不同 -> 和 "."
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: what is the difference between (.) dot operator and (-
c++ - for 循环给出的结果与 += 不同
我真的不明白这里发生了什么但是: 当我这样做时: colorIndex += len - stopPos; for(int m = 0; m < len - stopPos; m++) { c
MySQL 按顺序和计数分组(不同)
思考 MySQL 中的 Group By 函数的最佳方式是什么？我正在编写一个 MySQL 查询，通过 ODBC 连接在 Excel 的数据透视表中提取数据，以便用户可以轻松访问数据。例如，我有:
mysql - 如何在组内选择具有条件的计数(不同)
我想要的SQL是这样的: SELECT week_no, type, SELECT count(distinct user_id) FROM group WHERE pts > 0 FROM bas
php - 不同/连接两个表
商店表: +--+-------+--------+ |id|name |date | +--+-------+--------+ |1 |x |Ma
javascript - offsetParent 不同
对于 chrome 和 ff，当涉及到可怕的 ie 时，这个脚本工作完美。有问题 function getY(oElement) { var curtop = 0; if (oElem
c - 不同.c文件之间的IPC进程间通信
我现在无法提供代码，因为我目前正在脑海中研究这个想法并在互联网上四处乱逛。我了解了进程间通信和使用共享内存在进程之间共享数据(特别是结构)。但是，在对保存在不同 .c 文件中的程序使用 fork(
c - C编程中的MongoDB聚合函数(不同)
我想在用户集合中使用不同的功能。在 mongo shell 中，我可以像下面这样使用: db.users.distinct("name"); 其中名称是用于区分的集合字段。同样我想要，在 C
c# - linq选择问题(不同)
List nastava_izvjestaj = new List(); var data_context = new DataEvidencijaDataContext();
生产中的 CSS 不同
我的 Rails 应用程序中有 Ransack 搜索和 Foundation，本地 css 渲染正常，而生产中的同一个应用程序有一个怪癖: 应用程序中的其他内容完全相同。我在 Chrome 和 Sa

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - vector 迭代编译成非常不同的指令

更新: