performance - 我们什么时候应该使用预取？-6ren

performance - 我们什么时候应该使用预取？

转载作者：行者123 更新时间：2023-12-03 21:55:41

24

4

一些 CPU 和编译器提供预取指令。例如:GCC Document 中的 __builtin_prefetch .虽然 GCC 的文档中有评论，但对我来说太短了。

我想知道，在实践中，我们应该什么时候使用预取？有一些例子吗？谢谢!

最佳答案

这个问题实际上与编译器无关，因为它们只是提供了一些钩子(Hook)来将预取指令插入到您的汇编代码/二进制文件中。不同的编译器可能提供不同的内在格式，但您可以忽略所有这些并(小心地)将其直接添加到汇编代码中。

现在真正的问题似乎是“预取什么时候有用”，答案是 - 在任何情况下，您受限于内存延迟，并且访问模式不规则且无法区分硬件预取(组织在流中)或跨步)，或者当您怀疑有太多不同的流需要硬件同时跟踪时。
大多数编译器很少会为您插入他们自己的预取，因此基本上取决于您自己的代码和对预取如何有用的基准测试。

@Mysticial 的链接显示了一个很好的例子，但这里有一个更直接的例子，我认为硬件无法捕捉到它:

#include "stdio.h"
#include "sys/timeb.h"
#include "emmintrin.h"

#define N 4096
#define REP 200
#define ELEM int

int main() {
    int i,j, k, b;
    const int blksize = 64 / sizeof(ELEM);
    ELEM __attribute ((aligned(4096))) a[N][N];
    for (i = 0; i < N; ++i) {
        for (j = 0; j < N; ++j) {
            a[i][j] = 1;
        }
    }
    unsigned long long int sum = 0;
    struct timeb start, end;
    unsigned long long delta;

    ftime(&start);
    for (k = 0; k < REP; ++k) {
        for (i = 0; i < N; ++i) {
            for (j = 0; j < N; j ++) {
                sum += a[i][j];
            }
        }
    }
    ftime(&end);
    delta = (end.time * 1000 + end.millitm) - (start.time * 1000 + start.millitm);
    printf ("Prefetching off: N=%d, sum=%lld, time=%lld\n", N, sum, delta); 

    ftime(&start);
    sum = 0;
    for (k = 0; k < REP; ++k) {
        for (i = 0; i < N; ++i) {
            for (j = 0; j < N; j += blksize) {
                for (b = 0; b < blksize; ++b) {
                    sum += a[i][j+b];
                }
                _mm_prefetch(&a[i+1][j], _MM_HINT_T2);
            }
        }
    }
    ftime(&end);
    delta = (end.time * 1000 + end.millitm) - (start.time * 1000 + start.millitm);
    printf ("Prefetching on:  N=%d, sum=%lld, time=%lld\n", N, sum, delta); 
}

我在这里所做的是遍历每个矩阵行(享受硬件预取器对连续行的帮助)，但是从驻留在不同页面中的下一行中预取具有相同列索引的元素(硬件预取应该很难按下)去抓)。我对数据求和，这样它就不会被优化掉，重要的是我基本上只是遍历一个矩阵，应该非常简单且易于检测，但仍然可以获得加速。

使用 gcc 4.8.1 -O3 构建，它让我在 Intel Xeon X5670 上提升了近 20%:

Prefetching off: N=4096, sum=3355443200, time=1839
Prefetching on:  N=4096, sum=3355443200, time=1502

请注意，即使我使控制流更复杂(额外的循环嵌套级别)，也会收到加速，分支预测器应该很容易捕捉到那个短 block 大小循环的模式，并且它节省了不需要的预取的执行。

请注意 Ivybridge 及以后的 should have a "next-page prefetcher" ，因此硬件可能能够在这些 CPU 上缓解这种情况(如果有人有可用的并且愿意尝试，我会很高兴知道)。在这种情况下，我会修改基准以对每第二行求和(并且预取每次都会向前看两行)，这应该会让硬件预取器感到困惑。

Skylake 结果

以下是 Skylake i7-6700-HQ 的一些结果，运行频率为 2.6 GHz(无涡轮)， gcc :

编译标志: -O3 -march=native

Prefetching off: N=4096, sum=28147495993344000, time=896
Prefetching on:  N=4096, sum=28147495993344000, time=1222
Prefetching off: N=4096, sum=28147495993344000, time=886
Prefetching on:  N=4096, sum=28147495993344000, time=1291
Prefetching off: N=4096, sum=28147495993344000, time=890
Prefetching on:  N=4096, sum=28147495993344000, time=1234
Prefetching off: N=4096, sum=28147495993344000, time=848
Prefetching on:  N=4096, sum=28147495993344000, time=1220
Prefetching off: N=4096, sum=28147495993344000, time=852
Prefetching on:  N=4096, sum=28147495993344000, time=1253

编译标志: -O2 -march=native

Prefetching off: N=4096, sum=28147495993344000, time=1955
Prefetching on:  N=4096, sum=28147495993344000, time=1813
Prefetching off: N=4096, sum=28147495993344000, time=1956
Prefetching on:  N=4096, sum=28147495993344000, time=1814
Prefetching off: N=4096, sum=28147495993344000, time=1955
Prefetching on:  N=4096, sum=28147495993344000, time=1811
Prefetching off: N=4096, sum=28147495993344000, time=1961
Prefetching on:  N=4096, sum=28147495993344000, time=1811
Prefetching off: N=4096, sum=28147495993344000, time=1965
Prefetching on:  N=4096, sum=28147495993344000, time=1814

因此，根据您是否使用 -O3，使用预取会慢 40% 或快 8%。或 -O2分别针对此特定示例。 -O3 的大幅放缓实际上是由于代码生成怪癖:在 -O3没有预取的循环是矢量化的，但是预取变体循环的额外复杂性无论如何都阻止了我的 gcc 版本的矢量化。

所以 -O2结果可能是更多的苹果对苹果， yield 大约是我们在 Leeor 的 Westmere 上看到的一半(8% 对 16% 的加速)。仍然值得注意的是，您必须小心不要更改代码生成，以免大大减慢速度。

这个测试可能并不理想，因为去 int通过 int意味着大量的 CPU 开销，而不是强调内存子系统(这就是向量化有很大帮助的原因)。

关于performance - 我们什么时候应该使用预取？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20697215/

24

4

0

文章推荐： regex - Perl REGEX 替换每个 ! with ~ 仅当被引号包围时

文章推荐： Django 管理员 : how to sort column by custom method

文章推荐： Spring Boot @Aspect 日志记录

文章推荐： vim 乱码

c# - 取 'First'空格字符前后的字符串
我在字符串中有一个大词。例子白 Wine 额外优惠。我想在第一行使用“White”，在第二行使用“wine extra offer”。使用下面的代码: string value="White win
取 INT_MIN 绝对值的正确方法
我想在无符号中执行一些算术运算，需要取负整数的绝对值，比如 do_some_arithmetic_in_unsigned_mode(int some_signed_value) { unsign
r - 带向量函数的数据表聚合，取 2
我正在努力使用 data.table 来总结向量函数的结果，这在 ddply 中很容易。问题 1:使用带有矢量输出的(昂贵的)函数聚合 dt dt[ , as.list(quantile(x)),
logarithm - 使用对数避免数值下溢的算术问题(取 2)
我有两个分数列表；说 A = [ 1/212, 5/212, 3/212, ... ] 和 B = [ 4/143, 7/143, 2/143, ... ] . 如果我们定义 A' = a[0] *
python - 取 numpy 数组中列的平均值
我已经使用 numpy 从 csv 文件中获取数据。 numpy 数组的尺寸为:100*20。我如何取列的平均值(比如 col 3,5,8)并用包含这 3 个 cols 平均值的新列替换它们如果
rust - 取 n 次根
在 Rust 中取任意数的 n 次根的最佳方法是什么？例如，num crate 只允许取整数类型的第 n 个主根，即 floor'ed 或 ceil'ed 值......如何最好地接近实际值？最佳答
r - 取 dplyr 中字符串定义的变量的平均值
看起来这应该很容易，但我很困惑。我已经掌握了使用 dplyr 进行编程的大致技巧0.7，但为此苦苦挣扎:How do Iprogram in dplyr我想要编程的变量是否是一个字符串？我正在抓取数
rust - 取 n 次根
在 Rust 中取任意数的 n 次根的最佳方法是什么？例如，num crate 只允许取整数类型的第 n 个主根，即 floor'ed 或 ceil'ed 值......如何最好地接近实际值？最佳答
python - 取 pandas 数据框中一系列行的平均值
我有一个 pandas 数据框，其中有一列名为“coverage”。对于一系列特定索引值，我想获取前 100 行的平均“覆盖率”值。例如，对于索引位置 1001，我想要第 901-1000 行的平均“
python - 取 pandas 中两个时间戳范围条件的交集
import pandas as pd data = {'date': ['1998-03-01', '2001-04-01','1998-06-01','2001-08-01','2001-05-0
ios - 取 NSArray 段的平均值
我有一个包含 100 个数字的 NSArray。我想创建一个 5 个数字的 NSArray。第二个数组中的第一个数字是第一个数组中前 20 个数字的平均值。第二个数字是第一个数组中第二组 20 个数字
iphone - 取 CGFloat 的绝对值
我该怎么做？我试过 abs() 但它只适用于整数。有内置的方法吗？ CGFloat flo = -123; abs(flo) 返回 0 最佳答案使用 fabs() CGFloat f = -123.
scala - 取 UInt 的 log2Ceil
我正在采用以下计算的 log2: tl_out.a.bits.size := log2Ceil(s1_row * s2_column * 4.U) 其中，s1_row 和 s2_column 是 UI
c# - 取 n 个元素。结束的从头开始
如何从 m 个元素集合中取出 n 个元素，以便在元素用完时从头开始？ List list = new List() {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}; List newL
java - ObjectOutputStream 取 BufferedOutputStream 时不写入对象
我已经完成了研究，但似乎找不到有关该主题的足够文档。在 Object streams 上尝试一些代码时，我注意到将 BufferedOutputStream 放入 ObjectOutputStrea
python - 取 pandas groupby 中不同大小的组之间的差异
我需要计算数据中连续时间组之间的差异，如下所示 from io import StringIO import pandas as pd strio = StringIO("""\
javascript - Mongoose - 取 [Number] 的总和并将新属性添加到同一文档
我在 Mongo 数据库中有以下文档: { _id: 1, question: "Blue or red?", __v: 0, votes: [9, 5] } 我想在后
css - 浏览器兼容的自动换行和空格 : pre?(取 2)
好吧，宇宙中一定有人知道这个问题的答案。我已经在这里问过这个问题，但仍然没有解决方案。我需要保留和换行 div 中的文本。到目前为止，我很难想出解决方案。我找到的最佳解决方案并不适用于所有浏览器。
java - 取 3 个整数，创建一个日期
我正在尝试采用 3 个单独的整数输入(年、月、日)并采用这 3 个条目并从中形成一个日期对象，以便我可以使用它来比较其他日期。这是我目前所拥有的，不知从何而来: public void compar
ios - 取 NSString 占位符的 C 函数宏
在我的 IOS 项目中，我有一个包含该函数的自定义 Logger 类(单例) - (void)log:(NSString *)domain logLevel:(int)level logMessage

首页

博学

6Ren·AI

商城

performance - 我们什么时候应该使用预取？