performance - 为什么在 L1 缓存中使用 MFENCE 和存储指令 block 预取？-6ren

performance - 为什么在 L1 缓存中使用 MFENCE 和存储指令 block 预取？

转载作者：行者123 更新时间：2023-12-04 02:49:15

25

4

我有一个大小为 64 字节的对象:

typedef struct _object{
  int value;
  char pad[60];
} object;

在主要我初始化对象数组:

volatile object * array;
int arr_size = 1000000;
array = (object *) malloc(arr_size * sizeof(object));

for(int i=0; i < arr_size; i++){
    array[i].value = 1;
    _mm_clflush(&array[i]);
}
_mm_mfence();

然后再次循环遍历每个元素。这是我正在计算事件的循环:

int tmp;
for(int i=0; i < arr_size-105; i++){
    array[i].value = 2;
    //tmp = array[i].value;
     _mm_mfence();
 }

使用 mfence 在这里没有任何意义，但我正在捆绑其他东西，并偶然发现如果我有 存储操作，无 mfence 我收到了 50 万个 RFO 请求(由 papi L2_RQSTS.ALL_RFO 事件测量)，这意味着还有 50 万个 L1 命中，在需求之前预取。然而 包括 mfence 导致 100 万个 RFO 请求，给出 RFO_HIT，这意味着缓存行仅在 L2 中预取，不再在 L1 缓存中。

除了英特尔文档以其他方式指出的事实之外:“数据可以在 MFENCE 指令执行之前、期间或之后推测性地进入缓存。”我查了 加载操作。 如果没有 mfence，我最多可以获得 2000 次 L1 命中，而使用 mfence，我可以达到 100 万次 L1 命中(使用 papi MEM_LOAD_RETIRED.L1_HIT 事件测量)。缓存行在 L1 中预取以用于加载指令。

因此，包含 mfence 阻止预取的情况不应该是这种情况。存储和加载操作几乎都花费相同的时间——没有 mfence 5-6 毫秒，有 mfence 20 毫秒。我解决了有关 mfence 的其他问题，但没有提到预取时它的预期行为，我没有看到足够好的理由或解释为什么它会在仅存储操作的情况下阻止 L1 缓存中的预取。或者我可能在 mfence 描述中遗漏了一些东西？

我正在 Skylake 微架构上进行测试，但是与 Broadwell 进行了检查并得到了相同的结果。

最佳答案

不是 L1 预取导致您看到的计数器值:即使您禁用 L1 预取器，效果仍然存在。事实上，如果禁用除 L2 流媒体之外的所有预取器，效果仍然存在:

wrmsr -a 0x1a4 "$((2#1110))"

但是，如果您确实禁用了 L2 流媒体，则计数如您所料:您会看到大约 1,000,000 L2.RFO_MISS和 L2.RFO_ALL即使没有 mfence .

首先，需要注意的是 L2_RQSTS.RFO_*事件计数不计算源自 L2 流媒体的 RFO 事件。详情可查看 here ，但基本上每个 0x24 RFO 事件的 umask 是:

name      umask
RFO_MISS   0x22
RFO_HIT    0x42
ALL_RFO    0xE2

请注意，所有 umask 值都没有 0x10指示应跟踪源自 L2 流媒体的事件的位。

似乎发生的情况是，当 L2 流送器处于事件状态时，您可能希望分配给这些事件之一的许多事件反而被 L2 预取器事件“吃掉”了。可能发生的情况是 L2 预取器在请求流之前运行，并且当请求 RFO 来自 L1 时，它发现来自 L2 预取器的请求已经在进行中。这只会再次增加 umask |= 0x10事件的版本(实际上，当包含该位时，我总共获得了 2,000,000 个引用)，这意味着 RFO_MISS和 RFO_HIT和 RFO_ALL会想念它。

这有点类似于“fb_hit”场景，其中 L1 加载既没有错过也没有准确命中，而是命中了一个正在进行的加载——但这里的复杂之处在于加载是由 L2 预取器启动的。
mfence只是减慢了一切，以至于 L2 预取器几乎总是有时间将线路一直带到 L2，给出 RFO_HIT数数。

我认为这里根本不涉及 L1 预取器(事实证明，如果您关闭它们，则效果相同):据我所知，L1 预取器不与商店交互，只与加载交互。

这里有一些有用的 perf您可以使用命令查看包含“L2 流光源”位的差异。这里没有 L2 流媒体事件:

perf stat --delay=1000 -e cpu/event=0x24,umask=0xef,name=l2_rqsts_references/,cpu/event=0x24,umask=0xe2,name=l2_rqsts_all_rfo/,cpu/event=0x24,umask=0xc2,name=l2_rqsts_rfo_hit/,cpu/event=0x24,umask=0x22,name=l2_rqsts_rfo_miss/

其中包括:

perf stat --delay=1000 -e cpu/event=0x24,umask=0xff,name=l2_rqsts_references/,cpu/event=0x24,umask=0xf2,name=l2_rqsts_all_rfo/,cpu/event=0x24,umask=0xd2,name=l2_rqsts_rfo_hit/,cpu/event=0x24,umask=0x32,name=l2_rqsts_rfo_miss/

我针对此代码运行了这些(将 sleep(1) 与传递给 perf 以排除初始化代码的 --delay=1000 命令对齐):

#include <time.h>
#include <immintrin.h>
#include <stdio.h>
#include <unistd.h>

typedef struct _object{
  int value;
  char pad[60];
} object;

int main() {
    volatile object * array;
    int arr_size = 1000000;
    array = (object *) malloc(arr_size * sizeof(object));

    for(int i=0; i < arr_size; i++){
        array[i].value = 1;
        _mm_clflush((const void*)&array[i]);
    }
    _mm_mfence();

    sleep(1);
    // printf("Starting main loop after %zu ms\n", (size_t)clock() * 1000u / CLOCKS_PER_SEC);

    int tmp;
    for(int i=0; i < arr_size-105; i++){
        array[i].value = 2;
        //tmp = array[i].value;
        // _mm_mfence();
    }
}

关于performance - 为什么在 L1 缓存中使用 MFENCE 和存储指令 block 预取？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56117452/

25

4

0

文章推荐： backbone.js - 如何使用 Meteor 创建动态 URL？

文章推荐： Objective-C:如何执行 performSelector:@selector？

c# - 取 'First'空格字符前后的字符串
我在字符串中有一个大词。例子白 Wine 额外优惠。我想在第一行使用“White”，在第二行使用“wine extra offer”。使用下面的代码: string value="White win
取 INT_MIN 绝对值的正确方法
我想在无符号中执行一些算术运算，需要取负整数的绝对值，比如 do_some_arithmetic_in_unsigned_mode(int some_signed_value) { unsign
r - 带向量函数的数据表聚合，取 2
我正在努力使用 data.table 来总结向量函数的结果，这在 ddply 中很容易。问题 1:使用带有矢量输出的(昂贵的)函数聚合 dt dt[ , as.list(quantile(x)),
logarithm - 使用对数避免数值下溢的算术问题(取 2)
我有两个分数列表；说 A = [ 1/212, 5/212, 3/212, ... ] 和 B = [ 4/143, 7/143, 2/143, ... ] . 如果我们定义 A' = a[0] *
python - 取 numpy 数组中列的平均值
我已经使用 numpy 从 csv 文件中获取数据。 numpy 数组的尺寸为:100*20。我如何取列的平均值(比如 col 3,5,8)并用包含这 3 个 cols 平均值的新列替换它们如果
rust - 取 n 次根
在 Rust 中取任意数的 n 次根的最佳方法是什么？例如，num crate 只允许取整数类型的第 n 个主根，即 floor'ed 或 ceil'ed 值......如何最好地接近实际值？最佳答
r - 取 dplyr 中字符串定义的变量的平均值
看起来这应该很容易，但我很困惑。我已经掌握了使用 dplyr 进行编程的大致技巧0.7，但为此苦苦挣扎:How do Iprogram in dplyr我想要编程的变量是否是一个字符串？我正在抓取数
rust - 取 n 次根
在 Rust 中取任意数的 n 次根的最佳方法是什么？例如，num crate 只允许取整数类型的第 n 个主根，即 floor'ed 或 ceil'ed 值......如何最好地接近实际值？最佳答
python - 取 pandas 数据框中一系列行的平均值
我有一个 pandas 数据框，其中有一列名为“coverage”。对于一系列特定索引值，我想获取前 100 行的平均“覆盖率”值。例如，对于索引位置 1001，我想要第 901-1000 行的平均“
python - 取 pandas 中两个时间戳范围条件的交集
import pandas as pd data = {'date': ['1998-03-01', '2001-04-01','1998-06-01','2001-08-01','2001-05-0
ios - 取 NSArray 段的平均值
我有一个包含 100 个数字的 NSArray。我想创建一个 5 个数字的 NSArray。第二个数组中的第一个数字是第一个数组中前 20 个数字的平均值。第二个数字是第一个数组中第二组 20 个数字
iphone - 取 CGFloat 的绝对值
我该怎么做？我试过 abs() 但它只适用于整数。有内置的方法吗？ CGFloat flo = -123; abs(flo) 返回 0 最佳答案使用 fabs() CGFloat f = -123.
scala - 取 UInt 的 log2Ceil
我正在采用以下计算的 log2: tl_out.a.bits.size := log2Ceil(s1_row * s2_column * 4.U) 其中，s1_row 和 s2_column 是 UI
c# - 取 n 个元素。结束的从头开始
如何从 m 个元素集合中取出 n 个元素，以便在元素用完时从头开始？ List list = new List() {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; List newL
java - ObjectOutputStream 取 BufferedOutputStream 时不写入对象
我已经完成了研究，但似乎找不到有关该主题的足够文档。在 Object streams 上尝试一些代码时，我注意到将 BufferedOutputStream 放入 ObjectOutputStrea
python - 取 pandas groupby 中不同大小的组之间的差异
我需要计算数据中连续时间组之间的差异，如下所示 from io import StringIO import pandas as pd strio = StringIO("""\
javascript - Mongoose - 取 [Number] 的总和并将新属性添加到同一文档
我在 Mongo 数据库中有以下文档: { _id: 1, question: "Blue or red?", __v: 0, votes: [9, 5] } 我想在后
css - 浏览器兼容的自动换行和空格 : pre?(取 2)
好吧，宇宙中一定有人知道这个问题的答案。我已经在这里问过这个问题，但仍然没有解决方案。我需要保留和换行 div 中的文本。到目前为止，我很难想出解决方案。我找到的最佳解决方案并不适用于所有浏览器。
java - 取 3 个整数，创建一个日期
我正在尝试采用 3 个单独的整数输入(年、月、日)并采用这 3 个条目并从中形成一个日期对象，以便我可以使用它来比较其他日期。这是我目前所拥有的，不知从何而来: public void compar
ios - 取 NSString 占位符的 C 函数宏
在我的 IOS 项目中，我有一个包含该函数的自定义 Logger 类(单例) - (void)log:(NSString *)domain logLevel:(int)level logMessage

首页

博学

6Ren·AI

商城

performance - 为什么在 L1 缓存中使用 MFENCE 和存储指令 block 预取？