x86 - 最近英特尔微架构中的简单解码器可以处理所有 1-µop 指令吗？-6ren

x86 - 最近英特尔微架构中的简单解码器可以处理所有 1-µop 指令吗？

转载作者：行者123 更新时间：2023-12-03 16:21:16

最近的 Intel CPU 的前端包含一个复杂的解码器和许多简单的解码器。复杂解码器可以处理解码为多个微操作的指令，而简单解码器仅支持解码为单个(融合域)微操作的指令。

是否所有 1-µop 指令都可以由简单解码器解码，或者是否存在只能由复杂解码器处理的 1-µop 指令？

最佳答案

不，有些指令只能解码 1/clock
Andreas 的评论表明 xor eax,eax/setnle al似乎有一个 1/clock 的解码瓶颈。我发现与 cdq 相同的事情: 读取 EAX，写入 EDX，从 DSB(uop 缓存)中运行得更快，并且不涉及部分寄存器或任何奇怪的东西，并且不需要破坏 dep 的指令。
更好的是，作为单字节指令，它只需一小段指令就可以击败 DSB。 (导致在某些 CPU 上的测试结果产生误导，例如在 Agner Fog 的表和 https://uops.info/ 上，例如 SKX 显示为 1c 吞吐量。)https://www.uops.info/html-tp/SKX/CDQ-Measurements.html与 https://www.uops.info/html-tp/CFL/CDQ-Measurements.html由于不同的测试方法，吞吐量不一致:只有 Coffee Lake 测试使用足够小的展开计数 (10) 进行测试，不会破坏 DSB，发现吞吐量为 0.6。 (考虑到循环开销后，实际吞吐量为 0.5，完全可以通过与 cqo 相同的后端端口压力来解释。IDK 为什么您会发现 0.6 而不是 0.55，而循环中 p6 只有一个额外的 uop。)
(Zen 可以以 0.25c 的吞吐量运行此指令；没有奇怪的解码问题，并且由每个整数 ALU 端口处理。)
times 10 cdq在 dec/jnz 循环中可以从 uop 缓存运行，并在 Skylake (p06) 上以 0.5c 的吞吐量运行，加上循环开销也会竞争 p6。times 20 cdq对于一个 32 字节的机器代码块，超过 3 个 uop 缓存行，这意味着循环只能从旧版解码运行(循环顶部对齐)。在 Skylake 上，每个 cdq 运行 1 个周期。 .性能计数器确认 MITE 每个周期提供 1 uop，而不是 3 或 4 组，中间有空闲周期。

default rel
%ifdef __YASM_VER__
    CPU Skylake AMD
%else
%use smartalign
alignmode p6, 64
%endif

global _start
_start:
    mov  ebp, 1000000000

align 64
.loop:
    ;times 10 cdq   ; 0.5c throughput
    ;times 20 cdq   ; 1c throughput, 1 MITE uop per cycle front-end

    ; times 10 cqo        ; 0.5c throughput 2-byte insn fits uop cache
    ; times 10 cdqe       ; 1c throughput data dependency
    ;times 10 cld         ; ~4c throughput, 3 uops

    dec ebp
    jnz .loop
.end:

    xor edi,edi
    mov eax,231   ; __NR_exit_group  from /usr/include/asm/unistd_64.h
    syscall       ; sys_exit_group(0)

在我的 Arch Linux 桌面上，我将它构建到一个静态可执行文件中以在 perf 下运行:

i7-6700k，epp=balance_performance(最大“turbo”= 3.9GHz)

微码修订版 0xd6(因此禁用 LSD，这无关紧要:如果所有 uop 都在 DSB uop 缓存 IIRC 中，则循环只能从 LSD 循环缓冲区运行。)

     in a bash shell:
t=cdq-latency; nasm -f elf64 "$t".asm && ld -o "$t" "$t.o" && objdump -drwC -Mintel "$t" && taskset -c 3 perf stat --all-user -etask-clock,context-switches,cpu-migrations,page-faults,cycles,instructions,uops_issued.any,frontend_retired.dsb_miss,idq.dsb_uops,idq.mite_uops,idq.mite_cycles,idq_uops_not_delivered.core,idq_uops_not_delivered.cycles_fe_was_ok,idq.all_mite_cycles_4_uops ./"$t"

拆卸

0000000000401000 <_start>:
  401000:       bd 00 ca 9a 3b          mov    ebp,0x3b9aca00
  401005:       0f 1f 84 00 00 00 00 00         nop    DWORD PTR [rax+rax*1+0x0]
...
  40103d:       0f 1f 00                nop    DWORD PTR [rax]

0000000000401040 <_start.loop>:
  401040:       99                      cdq    
  401041:       99                      cdq    
  401042:       99                      cdq    
  401043:       99                      cdq    
...
  401052:       99                      cdq    
  401053:       99                      cdq             # 20 total CDQ
  401054:       ff cd                   dec    ebp
  401056:       75 e8                   jne    401040 <_start.loop>

0000000000401058 <_start.end>:
  401058:       31 ff                   xor    edi,edi
  40105a:       b8 e7 00 00 00          mov    eax,0xe7
  40105f:       0f 05                   syscall

性能结果:

 Performance counter stats for './cdq-latency':

          5,205.44 msec task-clock                #    1.000 CPUs utilized          
                 0      context-switches          #    0.000 K/sec                  
                 0      cpu-migrations            #    0.000 K/sec                  
                 1      page-faults               #    0.000 K/sec                  
    20,124,711,776      cycles                    #    3.866 GHz                      (49.88%)
    22,015,118,295      instructions              #    1.09  insn per cycle           (59.91%)
    21,004,212,389      uops_issued.any           # 4035.049 M/sec                    (59.97%)
     1,005,872,141      frontend_retired.dsb_miss #  193.235 M/sec                    (60.03%)
                 0      idq.dsb_uops              #    0.000 K/sec                    (60.08%)
    20,997,157,414      idq.mite_uops             # 4033.694 M/sec                    (60.12%)
    19,996,447,738      idq.mite_cycles           # 3841.451 M/sec                    (40.03%)
    59,048,559,790      idq_uops_not_delivered.core # 11343.621 M/sec                   (39.97%)
       112,956,733      idq_uops_not_delivered.cycles_fe_was_ok #   21.700 M/sec                    (39.92%)
           209,490      idq.all_mite_cycles_4_uops #    0.040 M/sec                    (39.88%)

       5.206491348 seconds time elapsed

所以循环开销(dec/jnz)基本上是免费发生的，在与最后一个 cdq 相同的循环中解码.计数不准确，因为我在一次运行中使用了太多事件(启用了 HT)，所以 perf 进行了软件多路复用。从另一个计数器更少的运行中:

# same source, only these HW counters enabled to avoid multiplexing
          5,161.14 msec task-clock                #    1.000 CPUs utilized          

    20,107,065,550      cycles                    #    3.896 GHz                    
    20,000,134,955      idq.mite_cycles           # 3875.142 M/sec                  
    59,050,860,720      idq_uops_not_delivered.core # 11441.447 M/sec                 
        95,968,317      idq_uops_not_delivered.cycles_fe_was_ok #   18.594 M/sec

所以我们可以看到 MITE(传统解码)基本上每个周期都处于事件状态，并且前端基本上从来没有“ok”。 (即永远不会在后端停滞不前)。

只有 10 条 CDQ 指令，让 DSB 工作 :

...
0000000000401040 <_start.loop>:
  401040:       99                      cdq    
  401041:       99                      cdq    
...
  401049:       99                      cdq        # 10 total CDQ insns
  40104a:       ff cd                   dec    ebp
  40104c:       75 f2                   jne    401040 <_start.loop>

 Performance counter stats for './cdq-latency' (4 runs):

          1,417.38 msec task-clock                #    1.000 CPUs utilized            ( +-  0.03% )
                 0      context-switches          #    0.000 K/sec                  
                 0      cpu-migrations            #    0.000 K/sec                  
                 1      page-faults               #    0.001 K/sec                  
     5,511,283,047      cycles                    #    3.888 GHz                      ( +-  0.03% )  (49.83%)
    11,997,247,694      instructions              #    2.18  insn per cycle           ( +-  0.00% )  (59.99%)
    10,999,182,841      uops_issued.any           # 7760.224 M/sec                    ( +-  0.00% )  (60.17%)
           197,753      frontend_retired.dsb_miss #    0.140 M/sec                    ( +- 13.62% )  (60.21%)
    10,988,958,908      idq.dsb_uops              # 7753.010 M/sec                    ( +-  0.03% )  (60.21%)
        10,234,859      idq.mite_uops             #    7.221 M/sec                    ( +- 27.43% )  (60.21%)
         8,114,909      idq.mite_cycles           #    5.725 M/sec                    ( +- 26.11% )  (39.83%)
        40,588,332      idq_uops_not_delivered.core #   28.636 M/sec                    ( +- 21.83% )  (39.79%)
     5,502,581,002      idq_uops_not_delivered.cycles_fe_was_ok # 3882.221 M/sec                    ( +-  0.01% )  (39.79%)
            56,223      idq.all_mite_cycles_4_uops #    0.040 M/sec                    ( +-  3.32% )  (39.79%)

          1.417599 +- 0.000489 seconds time elapsed  ( +-  0.03% )

据 idq_uops_not_delivered.cycles_fe_was_ok 报道，基本上所有未使用的前端uop插槽都是后端的故障(p0/p6上的端口压力)，而不是前端。

关于x86 - 最近英特尔微架构中的简单解码器可以处理所有 1-µop 指令吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61980149/

文章推荐： r - ggplot 热图网格线格式 geom_tile 和 geom_rect

Java正则表达式，简单
我正在努力实现以下目标，假设我有字符串: ( z ) ( A ( z ) ( A ( z ) ( A ( z ) ( A ( z ) ( A ) ) ) ) ) 我想编写一个正则
CSS水平滚动(简单)
给定: 1 2 3 4 5 6
MySQL填充样例数据(简单)
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
简单、好懂的Svelte实现原理
大家好，我卡颂。 Svelte问世很久了，一直想写一篇好懂的原理分析文章，拖了这么久终于写了。本文会围绕一张流程图和两个Demo讲解，正确的食用方式是用电脑打开本文，跟着流程图、Demo一
Javascript使用正则验证身份证号(简单)
身份证为15位或者18位，15位的全为数字，18位的前17位为数字，最后一位为数字或者大写字母”X“。与之匹配的正则表达式： ?
强大的jquery插件jqeuryUI做网页对话框效果！简单
我们先来最简单的，网页的登录窗口；不过开始之前，大家先下载jquery的插件本人习惯用了vs2008来做网页了，先添加一个空白页这是最简单的的做法。。。先在body里面插入 <
简单、易用的MySQL官方压力测试工具
1、MySQL自带的压力测试工具 Mysqlslap mysqlslap是mysql自带的基准测试工具,该工具查询数据,语法简单,灵活容易使用.该工具可以模拟多个客户端同时并发的向服务器发出
.NET开源、简单、实用的数据库文档生成工具
前言今天大姚给大家分享一款.NET开源（MIT License）、免费、简单、实用的数据库文档（字典）生成工具，该工具支持CHM、Word、Excel、PDF、Html、XML、Markdown等
【Go基础入门教程】Go语言代码风格清晰、简单
Go语言语法类似于C语言，因此熟悉C语言及其派生语言（ C++、 C#、Objective-C 等）的人都会迅速熟悉这门语言。 C语言的有些语法会让代码可读性降低甚至发生歧义。Go语言在C语言的
FFMpeg 简单/快速转换视频文件不适用于任何视频
我正在使用快速将 mkv 转换为 mp4 ffmpeg 命令 ffmpeg -i test.mkv -vcodec copy -acodec copy new.mp4 但不适用于任何 mkv 文件，当
VBA 计算具有特定名称的工作表数(简单)
我想计算我的工作簿中的工作表数量，然后从总数中减去特定的工作表。我错过了什么？这给了我一个对象错误: wsCount = ThisWorkbook.Sheets.Count - ThisWorkboo
Perl 配置::简单
我有一个 perl 文件，用于查看文件夹中是否存在 ini。如果是，它会从中读取，如果不是，它会根据我为它制作的模板创建一个。我在 ini 部分使用 Config::Simple。我的问题是，如果
ios - 如何访问iOS通知中传递的数据(简单)？
尝试让一个 ViewController 通过标准 Cocoa 通知与另一个 ViewController 进行通信。编写了一个简单的测试用例。在我最初的 VC 中，我将以下内容添加到 viewDi
optimization - (简单？)折线图的标签放置
我正在绘制高程剖面图，显示沿路径的高程增益/损失，类似于下面的: Sample Elevation Profile with hand-placed labels http://img38.image
javascript - 使用JS隐藏div(简单)
嗨，所以我需要做的是最终让 regStart 和 regPage 根据点击事件交替可见性，我不太担心编写 JavaScript 函数，但我根本无法让我的 regPage 首先隐藏。这是我的代码。请简单
c++ - 简单 for 循环中的大量时间损失
我有一个非常简单的程序来测量一个函数花费了多少时间。 #include #include #include struct Foo { void addSample(uint64_t s)
JavaScript 简单 BitConverter
我需要为 JavaScript 制作简单的 C# BitConverter。我做了一个简单的BitConverter class BitConverter{ constructor(){} GetBy
javascript - 简单 for 循环出现意外标记错误？
已关闭。这个问题是 not reproducible or was caused by typos 。目前不接受答案。这个问题是由拼写错误或无法再重现的问题引起的。虽然类似的问题可能是 on-top
group-by - 简单.数据分组依据
我是 Simple.Data 的新手。但我很难找到如何进行“分组依据”。我想要的是非常基本的。表格看起来像: +________+ | cards | +________+ | id |
Javascript 简单 UDF
我现在正在开发一个 JS UDF，它看起来遵循编码。通常情况下，由于循环计数为 2，Alert Msg 会出现两次。我想要的是即使循环计数为 3，Alert Msg 也只会出现一次。任何想法都

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

x86 - 最近英特尔微架构中的简单解码器可以处理所有 1-µop 指令吗？