- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
在 Xeon CPU (E5-2603) 中,向后内存预取是否与前向内存预取一样快?
我想实现一个需要对数据进行前向循环和后向循环的算法。
由于每次迭代都需要上次迭代的结果,因此我无法颠倒循环的顺序。
谢谢你。
最佳答案
您可以运行实验来确定数据预取器是否能够处理前向顺序访问和后向顺序访问。我有一个 Haswell CPU,所以预取器可能与你的 CPU (Sandy Bridge) 中实现的不同。
下图显示了以四种不同方式遍历数组时每个元素的访问可观察延迟:
forfor
. forback
. backback
. forfor
的两次运行的测量值叫
forfor1
和
forfor2
.每个元素的平均延迟如下:
forfor1
: 9.9 个周期。 forfor2
: 15 个周期。 forback
: 35.8 个周期。 backback
: 40.3 个周期。 forfor
的第一次运行中,大多数延迟是 4 个周期,这清楚地表明 L1 命中。在
forfor
的第二次运行中,大多数延迟为 8 或 12 个周期。我认为这些也可能是 L1 的热门歌曲。在这两种情况下,都有一些 L3 命中和很少的主内存访问。对于两者
forback
和
backback
,我们可以看到大部分延迟是 L3 命中。这意味着 L3 预取器能够处理向前和向后遍历,但不能处理 L1 和 L2 预取器。
/* compile with gcc at optimization level -O3 */
/* set the minimum and maximum CPU frequency for all cores using cpupower to get meaningful results */
/* run using "sudo nice -n -20 ./a.out" to minimize possible context switches, or at least use "taskset -c 0 ./a.out" */
/* make sure all cache prefetchers are enabled */
/* preferrably disable HT */
/* this code is Intel-specific */
/* see the note at the end of the answer */
#include <stdint.h>
#include <x86intrin.h>
#include <stdio.h>
// 2048 iterations.
#define LINES_SIZE 64
#define ITERATIONS 2048 * LINES_SIZE
// Forward
#define START 0
#define END ITERATIONS
// Backward
//#define START ITERATIONS - LINES_SIZE
//#define END 0
#if START < END
#define INCREMENT i = i + LINES_SIZE
#define COMP <
#else
#define INCREMENT i = i - LINES_SIZE
#define COMP >=
#endif
int main()
{
int array[ ITERATIONS ];
int latency[ ITERATIONS/LINES_SIZE ];
uint64_t time1, time2, al, osl; /* initial values don't matter */
// Perhaps necessary to prevents UB?
for ( int i = 0; i < ITERATIONS; i = i + LINES_SIZE )
{
array[ i ] = i;
}
printf( "address = %p \n", &array[ 0 ] ); /* guaranteed to be aligned within a single cache line */
// Measure overhead.
_mm_mfence();
_mm_lfence(); /* mfence and lfence must be in this order + compiler barrier for rdtsc */
time1 = __rdtsc(); /* set timer */
_mm_lfence(); /* serialize rdtsc with respect to trailing instructions + compiler barrier for rdtsc */
/* no need for mfence because there are no stores in between */
_mm_lfence(); /* mfence and lfence must be in this order + compiler barrier for rdtsc */
time2 = __rdtsc();
_mm_lfence(); /* serialize rdtsc with respect to trailing instructions */
osl = time2 - time1;
// Forward or backward traversal.
for ( int i = START; i COMP END; INCREMENT )
{
_mm_mfence(); /* this properly orders both clflush and rdtsc */
_mm_lfence(); /* mfence and lfence must be in this order + compiler barrier for rdtsc */
time1 = __rdtsc(); /* set timer */
_mm_lfence(); /* serialize rdtsc with respect to trailing instructions + compiler barrier for rdtsc */
int temp = array[ i ]; /* access array[i] */
_mm_lfence(); /* mfence and lfence must be in this order + compiler barrier for rdtsc */
time2 = __rdtsc();
_mm_lfence(); /* serialize rdtsc with respect to trailing instructions */
al = time2 - time1;
printf( "array[ %i ] = %i \n", i, temp ); /* prevent the compiler from optimizing the load */
latency[i/64] = al - osl;
}
// Output measured latencies.
for ( int i = 0; i < ITERATIONS/LINES_SIZE; ++i )
{
printf( "%i \n", latency[i] );
}
return 0;
}
LFENCE
的存在指令,测量可以包括加载指令在流水线的其他阶段所需的延迟。此外,编译器正在定时区域中放置一些 ALU 指令,因此测量可能会受到这些指令的影响(这可以通过编写汇编代码来避免)。这会导致难以区分在 L1 中命中的访问和在 L2 中命中的访问。例如,一些 L1 延迟测量报告为 8 个周期。尽管如此,
forback
和
backback
测量清楚地表明,大多数访问都在 L3 中命中。
printf
在每次迭代中调用的 正在污染大部分 L1 和 L2 缓存。所以一定要使用 > 操作符。您也可以使用
(void) *((volatile int*)array + i)
而不是
int tmp = array[i]
如
this 中提出的和
this回答。那就更靠谱了。
关于performance - 至强 CPU (E5-2603) 后向内存预取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51933660/
1、前言 在数字化时代,自动化工具成为了提升工作效率和生产力的重要手段。Python作为一种广泛使用的编程语言,以其强大的功能和易用性受到许多开发者的青睐。 而今天给大家推荐一款开源的自动化脚本工具
我有一个 UIViewController,它引用了一个重复调用闭包的 Timer 对象。 Timer 对象在其 block 中捕获 self。据我所知,这会导致 View Controller 和
在当今软件开发的快速迭代中,接口自动化测试已成为确保代码质量和服务稳定性的关键步骤。 随着微服务架构和分布式系统的广泛应用,对接口自动化测试平台的需求也日益增长。 今天,我将为大家推荐一款强大的开
这个问题在这里已经有了答案: Is Python strongly typed? (13 个答案) 关闭 9 年前。 我了解到 Python 是一种强动态类型的语言。 动态:变量的类型在执行时确定,
想象以下使用手动内存管理(也称为非 ARC)的场景: 我有一个将 block 传递给类方法的 VC。在执行 block 之前,VC 从 UINavigationController 中弹出。 __bl
我已阅读this article关于Java中不同类型的引用(强引用、软引用、弱引用、幻像引用),但我不太理解。 这些引用类型之间有什么区别?每种类型何时使用? 最佳答案 Java 提供了两种不同类型
我需要两个选择器: 一个用于 h2 元素中的普通文本 还有一个用于 strong 标记内的文本 第一个是与: 选择器:'h2.flashHeader' 但是 选择器:'h2.flashHeader S
`我承认我不是 ARC 和保留周期方面的专家,尽管通过一些研究和一些很棒的文章(如 this),我相信我已经掌握了基础知识。 但是,我现在很困惑。我有一个属性定义如下。 @property (nona
就像这是非原子的 COPY 的 Setter @property (copy, nonatomic) NSString *someString; -(void)setSomeString:(NSStr
我有一个按钮的以下操作,它切换一个对象是显示为最喜欢的还是不最喜欢的: - (IBAction)addToFavorites:(UIButton *)sender { if ([object is
这个问题在这里已经有了答案: How to make my font bold using css? (10 个答案) 关闭 3 个月前。 在我网页上的整个文本和标题中,我需要将某些词加粗,而其他词
在我的项目中,我使用了 Storyboard,当我访问一个 UI 元素时,我创建了一个属性并将其链接。这个属性很弱。据我了解,该属性可能很弱,因为它已经添加到 View 中并且 View 保留了它。
我正在寻找有关 TLS/SSL 密码套件强度的信息。 例如,当在 chrome 上按 F12 时,会出现一个包含密码协议(protocol)和套件信息的安全概览选项卡。 Chrome 安全选项卡示例:
我使用 Xcode 中的分析工具(分配)发现的是,当您清零一个属性时,它不会被释放,直到父类被清空。现在假设你想确保你不会在内存中保留一个昂贵的模态视图 Controller (假设它不会经常使用),
下面的 Parent 类具有对单个子对象的强引用和弱引用。永远不会释放子对象。移除弱引用, child 就被释放了。 需要调用 Mirror 方法来进行此泄漏,但我不明白为什么使用 Mirror 会导
1、引言 在当今的互联网时代,API(应用程序编程接口)已经成为连接不同软件系统的桥梁。作为一名开发者,掌握API测试技能至关重要。市面上的API测试工具琳琅满目,今天我们要介绍的是一款开源、跨平台
大家好,我是狂师! 今天给大家推荐一款开源的HTTP测试工具:Hurl,相比curl、wget功能更强大,且更容易上手、很适用新手使用。 1、项目介绍 Hurl是一个使用Rust语言开发的命令行
当我从 Storyboard 控制拖动导出时,默认情况下我得到了 strong 属性。我正在使用 Xcode 9.4.1 .以下代码是它的样子。是不是因为 XCode 与 Swift 兼容,所以在 S
这两个Objective-C声明之间有什么区别? 我一直在看一些Apple源代码示例,他们在各种情况下都使用了第二个示例。我只是想了解为什么和何时最好使用第二个版本而不是第一个版本(我知道 stron
我已经在 AWS Linux 实例上安装了 Strong-pm: [root@box]# npm -g install strongloop strong-pm [root@box]# sl-pm-i
我是一名优秀的程序员,十分优秀!