performance - 至强 CPU (E5-2603) 后向内存预取-6ren

performance - 至强 CPU (E5-2603) 后向内存预取

转载作者：行者123 更新时间：2023-12-03 16:13:46

在 Xeon CPU (E5-2603) 中，向后内存预取是否与前向内存预取一样快？

我想实现一个需要对数据进行前向循环和后向循环的算法。

由于每次迭代都需要上次迭代的结果，因此我无法颠倒循环的顺序。

谢谢你。

最佳答案

您可以运行实验来确定数据预取器是否能够处理前向顺序访问和后向顺序访问。我有一个 Haswell CPU，所以预取器可能与你的 CPU (Sandy Bridge) 中实现的不同。

下图显示了以四种不同方式遍历数组时每个元素的访问可观察延迟:

数组按前向顺序初始化，然后以相同方式遍历。我将此模式称为 forfor .

数组在前向顺序初始化，然后在后向(从最后一个元素到第一个元素)顺序遍历。我将此模式称为 forback .

数组按反向顺序初始化，然后以同样的方式遍历。我将此模式称为 backback .

x 轴代表元素索引，y 轴代表 TSC 周期中的延迟。我已经配置了我的系统，以便 TSC 周期大约等于一个核心周期。我已经绘制了 forfor 的两次运行的测量值叫 forfor1和 forfor2 .每个元素的平均延迟如下:

forfor1 : 9.9 个周期。

forfor2 : 15 个周期。

forback : 35.8 个周期。

backback : 40.3 个周期。

L1 访问延迟对任何测量噪声都特别敏感。 L2 访问延迟应该是 12 cycles平均而言，但由于几个周期的噪声，我们可能仍会获得 L1 命中的 12 个周期的延迟。在 forfor的第一次运行中，大多数延迟是 4 个周期，这清楚地表明 L1 命中。在 forfor 的第二次运行中，大多数延迟为 8 或 12 个周期。我认为这些也可能是 L1 的热门歌曲。在这两种情况下，都有一些 L3 命中和很少的主内存访问。对于两者 forback和 backback ，我们可以看到大部分延迟是 L3 命中。这意味着 L3 预取器能够处理向前和向后遍历，但不能处理 L1 和 L2 预取器。

然而，访问是一个接一个地快速连续执行的，其间基本上没有计算。因此，如果 L2 预取器确实尝试向后预取，它可能会太晚获取数据，因此仍然会产生类似 L3 的延迟。

请注意，我没有在数组的两次遍历之间刷新缓存，因此第一次遍历可能会影响第二次遍历中测量的延迟。

这是我用来进行测量的代码。

/* compile with gcc at optimization level -O3 */
/* set the minimum and maximum CPU frequency for all cores using cpupower to get meaningful results */ 
/* run using "sudo nice -n -20 ./a.out" to minimize possible context switches, or at least use "taskset -c 0 ./a.out" */
/* make sure all cache prefetchers are enabled */
/* preferrably disable HT */
/* this code is Intel-specific */
/* see the note at the end of the answer */

#include <stdint.h>
#include <x86intrin.h>
#include <stdio.h>

// 2048 iterations.
#define LINES_SIZE 64
#define ITERATIONS 2048 * LINES_SIZE
// Forward
#define START 0
#define END ITERATIONS
// Backward
//#define START ITERATIONS - LINES_SIZE
//#define END 0
#if START < END
#define INCREMENT i = i + LINES_SIZE
#define COMP <
#else
#define INCREMENT i = i - LINES_SIZE
#define COMP >=
#endif

int main()
{
  int array[ ITERATIONS ];
  int latency[ ITERATIONS/LINES_SIZE ];
  uint64_t time1, time2, al, osl; /* initial values don't matter */

  // Perhaps necessary to prevents UB?
  for ( int i = 0; i < ITERATIONS; i = i + LINES_SIZE )
  {
     array[ i ] = i; 
  }

  printf( "address = %p \n", &array[ 0 ] ); /* guaranteed to be aligned within a single cache line */

  // Measure overhead.
  _mm_mfence();                      
  _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
  time1 = __rdtsc();                 /* set timer */
  _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions + compiler barrier for rdtsc */
  /* no need for mfence because there are no stores in between */
  _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
  time2 = __rdtsc();
  _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions */
  osl = time2 - time1;

  // Forward or backward traversal.
  for ( int i = START; i COMP END; INCREMENT )
  {

     _mm_mfence();                      /* this properly orders both clflush and rdtsc */
     _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
     time1 = __rdtsc();                 /* set timer */
     _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions + compiler barrier for rdtsc */
     int temp = array[ i ];             /* access array[i] */
     _mm_lfence();                      /* mfence and lfence must be in this order + compiler barrier for rdtsc */
     time2 = __rdtsc();
     _mm_lfence();                      /* serialize rdtsc with respect to trailing instructions */
     al = time2 - time1;

     printf( "array[ %i ] = %i \n", i, temp );         /* prevent the compiler from optimizing the load */
     latency[i/64] = al - osl;

  }

  // Output measured latencies.
  for ( int i = 0; i < ITERATIONS/LINES_SIZE; ++i )
  {
     printf( "%i \n", latency[i] );
  }

  return 0;
}

这些实验的目的是测量单个访问延迟，以确定每次访问从哪个缓存级别提供服务。然而，由于 LFENCE的存在指令，测量可以包括加载指令在流水线的其他阶段所需的延迟。此外，编译器正在定时区域中放置一些 ALU 指令，因此测量可能会受到这些指令的影响(这可以通过编写汇编代码来避免)。这会导致难以区分在 L1 中命中的访问和在 L2 中命中的访问。例如，一些 L1 延迟测量报告为 8 个周期。尽管如此， forback和 backback测量清楚地表明，大多数访问都在 L3 中命中。

如果我们对测量访问特定级别的内存层次结构的平均延迟感兴趣，那么使用指针追踪可以提供更准确的结果。事实上，这是测量内存延迟的传统方法。

如果您以硬件预取器(尤其是 L2 或 L3 的那些)难以预测的模式访问大量数据，则软件预取可能非常有用。然而，一般来说，正确地进行软件预取是很困难的。此外，我得到的测量结果表明 L3 预取器可以向前和向后预取。如果您在内存访问和计算方面都有大量的并行性，那么 OoO 执行可以隐藏 L3 访问延迟的很大一部分。

正确运行程序的重要说明 : 事实证明，如果我没有使用输出重定向运算符 > 将所有输出重定向到一个文件，即所有输出都将打印在终端上，则所有测量的延迟将接近 L3 命中延迟。这样做的原因是 printf在每次迭代中调用的正在污染大部分 L1 和 L2 缓存。所以一定要使用 > 操作符。您也可以使用 (void) *((volatile int*)array + i)而不是 int tmp = array[i]如 this 中提出的和 this回答。那就更靠谱了。

关于performance - 至强 CPU (E5-2603) 后向内存预取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/51933660/

文章推荐： haskell - 为什么 Prelude.drop 比普通的快？

文章推荐： ruby-on-rails - 无法批量分配 protected 属性 : tags_attributes?

文章推荐： sqlite - 使用 sqlite 作为 angular v7 的数据库

文章推荐： ruby-on-rails - 如何在 Controller 的关注中定义辅助方法

强！推荐一款Python开源自动化脚本工具：AutoKey！
1、前言在数字化时代，自动化工具成为了提升工作效率和生产力的重要手段。Python作为一种广泛使用的编程语言，以其强大的功能和易用性受到许多开发者的青睐。而今天给大家推荐一款开源的自动化脚本工具
ios - 强，弱或无主引用周期与定时器
我有一个 UIViewController，它引用了一个重复调用闭包的 Timer 对象。 Timer 对象在其 block 中捕获 self。据我所知，这会导致 View Controller 和
强！推荐一款开源接口自动化测试平台：AutoMeter-API！
在当今软件开发的快速迭代中，接口自动化测试已成为确保代码质量和服务稳定性的关键步骤。随着微服务架构和分布式系统的广泛应用，对接口自动化测试平台的需求也日益增长。今天，我将为大家推荐一款强大的开
python 强/弱动态/静态类型语言？
这个问题在这里已经有了答案: Is Python strongly typed? (13 个答案) 关闭 9 年前。我了解到 Python 是一种强动态类型的语言。动态:变量的类型在执行时确定，
ios - 手动内存管理中的弱/强 "dance"
想象以下使用手动内存管理(也称为非 ARC)的场景: 我有一个将 block 传递给类方法的 VC。在执行 block 之前，VC 从 UINavigationController 中弹出。 __bl
Java:强/软/弱/幻像引用之间的区别
我已阅读this article关于Java中不同类型的引用(强引用、软引用、弱引用、幻像引用)，但我不太理解。这些引用类型之间有什么区别？每种类型何时使用？最佳答案 Java 提供了两种不同类型
jquery - 强/粗体文本的 jquery 选择器是什么？
我需要两个选择器: 一个用于 h2 元素中的普通文本还有一个用于 strong 标记内的文本第一个是与: 选择器:'h2.flashHeader' 但是选择器:'h2.flashHeader S
ios - 即使在使用弱/强 ARC 语义时也保留循环
`我承认我不是 ARC 和保留周期方面的专家，尽管通过一些研究和一些很棒的文章(如 this)，我相信我已经掌握了基础知识。但是，我现在很困惑。我有一个属性定义如下。 @property (nona
ios - 强、复制、弱和分配原子和非原子的自定义 setter ？
就像这是非原子的 COPY 的 Setter @property (copy, nonatomic) NSString *someString; -(void)setSomeString:(NSStr
ios - 强 block 捕获 'self'
我有一个按钮的以下操作，它切换一个对象是显示为最喜欢的还是不最喜欢的: - (IBAction)addToFavorites:(UIButton *)sender { if ([object is
html - 粗体/强 - HTML5 等效？
这个问题在这里已经有了答案: How to make my font bold using css? (10 个答案) 关闭 3 个月前。在我网页上的整个文本和标题中，我需要将某些词加粗，而其他词
iOS 强 vs 弱 UI 以编程方式创建
在我的项目中，我使用了 Storyboard，当我访问一个 UI 元素时，我创建了一个属性并将其链接。这个属性很弱。据我了解，该属性可能很弱，因为它已经添加到 View 中并且 View 保留了它。
ssl - 哪些 TLS/SSL 密码套件被认为是弱/强？
我正在寻找有关 TLS/SSL 密码套件强度的信息。例如，当在 chrome 上按 F12 时，会出现一个包含密码协议(protocol)和套件信息的安全概览选项卡。 Chrome 安全选项卡示例:
ios - ARC内存管理: @Property (nonatomic,强)VS实例变量
我使用 Xcode 中的分析工具(分配)发现的是，当您清零一个属性时，它不会被释放，直到父类被清空。现在假设你想确保你不会在内存中保留一个昂贵的模态视图 Controller (假设它不会经常使用)，
swift - 强、弱引用+镜像: causing leak
下面的 Parent 类具有对单个子对象的强引用和弱引用。永远不会释放子对象。移除弱引用， child 就被释放了。需要调用 Mirror 方法来进行此泄漏，但我不明白为什么使用 Mirror 会导
强！34.1Kstar!再见Postman，新一代API测试利器，功能强大、颜值爆表！
1、引言在当今的互联网时代，API（应用程序编程接口）已经成为连接不同软件系统的桥梁。作为一名开发者，掌握API测试技能至关重要。市面上的API测试工具琳琅满目，今天我们要介绍的是一款开源、跨平台
强！10.6Kstar，一款开源HTTP测试工具，适合新手，简单、容易上手！
大家好，我是狂师！今天给大家推荐一款开源的HTTP测试工具：Hurl，相比curl、wget功能更强大，且更容易上手、很适用新手使用。 1、项目介绍 Hurl是一个使用Rust语言开发的命令行
ios - 为什么 Xcode 9 默认创建我的导出(强，非原子)
当我从 Storyboard 控制拖动导出时，默认情况下我得到了 strong 属性。我正在使用 Xcode 9.4.1 .以下代码是它的样子。是不是因为 XCode 与 Swift 兼容，所以在 S
ios - “@property(非原子，强)”和“@property”之间的区别
这两个Objective-C声明之间有什么区别？我一直在看一些Apple源代码示例，他们在各种情况下都使用了第二个示例。我只是想了解为什么和何时最好使用第二个版本而不是第一个版本(我知道 stron
node.js - 强-pm http auth 401
我已经在 AWS Linux 实例上安装了 Strong-pm: [root@box]# npm -g install strongloop strong-pm [root@box]# sl-pm-i

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

performance - 至强 CPU (E5-2603) 后向内存预取