assembly - 缺少uop缓存的粒度-6ren

assembly - 缺少uop缓存的粒度

转载作者：行者123 更新时间：2023-12-02 09:03:09

24

4

英特尔优化手册/ B.5.7.3

There are no partial hits in the Decoded ICache. If any micro-op that is part of that lookup on the 32-byte chunk is missing, a Decoded ICache miss occurs on all micro-ops for that transaction

uop缓存未命中是否真的以32字节粒度发生？

最佳答案

在KbL i7-8550U上，其行为就像每个高速缓存行没有部分命中，而不是32字节的区域。

实际上，我进行了下面描述的更多不同的实验，但是不可能在这里进行全部拟合。

英特尔优化手册记录了uop缓存包含L1i:

The Decoded ICache is virtually included in the Instruction cache and ITLB.

考虑以下

示例1.

;edi = 1 << 31
align 32
test_uop_cache_hit:
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 

    ;More 8 * nop ax blocks

    dec edi
    jnz test_uop_cache_hit
    ret

收集计数器 icache_64b.iftag_hit， idq.dsb_uops和 idq.mite_uops我们有以下图表

uops图是合理的。所有uops都是从dsb交付的。

第一张图显示，每个L1i高速缓存行只有一个标签查找，大小为64字节。标签查找对于找到uop缓存条目是必需的。

示例2.

在同一缓存行的8 * nop ax块中间添加jmp。

;edi = 1 << 31
align 64
test_uop_cache_hit:
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    jmp test_uop_cache_hit_1

align 32
test_uop_cache_hit_1:
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 
    nop ax 

    dec edi
    jnz test_uop_cache_hit
    ret

我们有以下情节:

uop图再次是合理的。从 icache_64b.iftag_hit得出的结论是，预测要采取的分支会引起li1标签查找，以便在uop缓存中找到相应的条目(即使分支源和目标属于同一行)。有了这个观察， Intel Optimization Manual/2.5.5.2

Once micro-ops are delivered from the legacy pipeline, fetching micro-ops from the Decoded ICache can resume only after the next branch micro-op.

对我来说看起来很合理。

现在考虑一点更有趣

示例3.

我将使用汇编程序伪代码来节省空间

align 64
test_uop_cache_hit:
     8 * nop ax

    19 * nop
    jmp test_uop_cache_hit_1  
align 32:
test_uop_cache_hit_1: ;new line starts here
;more 8 * nop ax 19 * nop jmp blocks
    dec edi
    jnz test_uop_cache_hit
    ret

我们得到以下结果

这里有趣的是，即使插入了已插入的分支微操作，并且 8 * nop ax完全适合uop缓存 ，它们也不会从uop缓存传递。从图 可以看出，从uop缓存传递的唯一微操作是宏融合的dec-jnz 。

结果让我觉得，如果某些32字节区域不适合uop缓存，则整个缓存行都标记为不包含在uop缓存中，并且下次要求它的任何32字节部分将从旧版解码管道。

从旧版解码管道切换是否需要分支微型操作？为了检查它考虑

示例4.

align 32
test_uop_cache_hit:
    32 * nop
test_uop_cache_hit_0: ;new line start here
    16 * nop ax
    ;more 16 * nop ax
    dec edi          ;new line start here
    jnz test_uop_cache_hit
    ret

这是dsb的结果

显然，所有的指令都是从旧版解码管道中传递的。

考虑一些更复杂的示例，以检查在 Example 3.下进行的假设是否在此处起作用:

I.

align 32
test_uop_cache_hit:
    6 * nop ax
    test edi, 0x1
    ;ends 64 byte region, misses due to erratum
    ;does not matter for the example
    jnz test_uop_cache_hit_1

    32 * nop
test_uop_cache_hit_1:
    dec edi
    jnz test_uop_cache_hit
    ret

结果是

 1 075 981 881       idq.dsb_uops
50 341 922 587       idq.mite_uops

结果是完全合理的。当不使用分支并传递 32 * nop时，很明显它们不能容纳uop缓存。在 32 * nop之后，从旧版解码管道中传递了已融合的 dec-jnz宏。它适合uop缓存，因此，下次采用该分支时，它将从dsb传递。

结果非常接近预期:(1 << 31)/2 = 1073741824

II。

比以前更复杂的示例

align 32
test_uop_cache_hit:
    test edi, 0x1
    jnz test_uop_cache_hit_2
    jmp test_uop_cache_hit_1

;starts new cache line
align 32
test_uop_cache_hit_1:
    8 * nop ax
; 32 byte aligned
test_uop_cache_hit_2:
    6 * nop ax
    nop dword [eax + 1 * eax + 0x1]
    ;End of 32 bytes region
    ;misses due to erratum
    ;Important here
    jmp test_uop_cache_hit_3
test_uop_cache_hit_3:
    dec edi
    jnz test_uop_cache_hit
    ret

结果如下:

 5 385 033 285      idq.dsb_uops
25 815 684 426      idq.mite_uops

结果是预期的。每次采用 dec edi - jnz test_uop_cache_hit_2时，它都会跳转到末尾包含 jmp的32字节区域。因此它将错过dsb。下次不使用 dec edi - jnz test_uop_cache_hit_2时，将采用 jmp test_uop_cache_hit_1。通常，它会命中dsb，因为 8 * nop ax非常适合它，但请记住，在上一个循环迭代中，32字节区域末尾的 jmp会导致未命中。它们都属于同一高速缓存行，因此dsb丢失会在每次迭代中发生。

结果接近预期:(1 << 31) + (1 << 31)/2 + (1 << 31) = 5368709120 。

从32字节区域中仅删除一个nop ax，最后添加jmp，而保留test_uop_cache_hit_3 32字节对齐会导致所有uops从dsb传递:

29 081 868 658       idq.dsb_uops
     8 887 726      idq.mite_uops

注意:如果每个高速缓存行预测有2个分支，结果将是非常不可预测的，因此很难给出合理的估计。我不清楚为什么。

关于assembly - 缺少uop缓存的粒度，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61567672/

24

4

0

文章推荐： prolog - Prolog 3 路比较中的关系运算符符号

文章推荐： java - 反复获取带有映射规范的 WhiteLabel 错误页面

文章推荐： javascript - 如何根据特定条件搜索句子并替换？

java - JSR 107 - 缓存 (JCache) 与 CPU 缓存
我阅读了有关 JSR 107 缓存 (JCache) 的内容。我很困惑:据我所知，每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。那么，为什么我们需要 Java 缓存处理程序？ (如果C
jquery - 使用 jQuery 缓存，缓存 jQuery Sortable 对象
好吧，我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此，鉴于此链接:http://jqueryui.com/sortable/#dis
hibernate 缓存？
我正在使用 Struts 2 和 Hibernate。我有一个简单的表，其中包含一个日期字段，用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。我遇到的问题是hibernate更
缓存-修复浏览器本地缓存页面
我有点不确定这里发生了什么，但是我试图解释正在发生的事情，也许一旦我弄清楚我到底在问什么，就可能写一个更好的问题。我刚刚安装了Varnish，对于我的请求时间来说似乎很棒。这是一个Magneto 2
haskell 缓存
解决 Project Euler 的问题后，我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
Python包代理/缓存
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发，作者推荐 devpi，请参见此处:https://bitbuc
缓存 WebSocket
我想到的一个问题是可以从一开始就缓存网络套接字吗？在我的拓扑中，我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
Linux内存管理(缓存)
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里？它们之间的主要区别是什么？据我了解，页面缓存是主内存的一部分，用于存储从 I/O 设备获取的
LeetCode_数据结构设计_困难_460. LFU 缓存
1.题目请你为最不经常使用（LFU）缓存算法设计并实现数据结构。实现 LFUCache 类： LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
LeetCode_数据结构设计_中等_146. LRU 缓存
1.题目请你设计并实现一个满足 LRU (最近最少使用) 缓存约束的数据结构。实现 LRUCache 类： ① LRUCache(int capacity) 以正整数作为容量 capacity
Django 缓存 - 删除某些页面的缓存
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
WiX ExePackage 缓存
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
Docker 缓存，它是如何工作的？
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户，并且每个人都在运行相同的 Dockerfile，但将镜像存储为 user1_myapp . user2 将其存储为 use
Codeigniter - 缓存 - 服务器？
在 Codeigniter 中没有出现缓存问题几年后，我发现了一个问题。我在其他地方看到过该问题，但没有适合我的解决方案。例如，如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
caching - Janusgraph 缓存
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存，我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。如果我只对例如进行读取
javascript - 有没有办法从终端重新启动无效/缓存？
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。谢谢! 最佳答案 According to a JetBrains employe
python - 带有默认可选参数的内存/缓存
我想制作一个 python 装饰器来内存函数。例如，如果 @memoization_decorator def add(a, b, negative=False): print "Com
jquery - 缓存 $(this) 是否会带来性能提升？
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数，我的代码会获得任何显着的额外性能吗？
使用模式匹配禁止 Varnish 缓存
是的，我要说实话，我不知道varnish vcl，我可以解决一些基本问题，但是我不太清楚，这就是为什么我遇到问题了。我正在尝试通过http请求设置缓存禁止，但是该请求不能通过DNS而是通过 Varn
Varnish 缓存-无法处理4000个并发用户
在 WP 站点上加载约 4000 个并发用户时遇到此问题。这是我的配置: F5 负载均衡器 ---> Varnish 4，8 核，32 Gb RAM ---> 9 个后端，4 个核，每个 16 RA

首页

博学

6Ren·AI

商城

assembly - 缺少uop缓存的粒度