- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
考虑一下C ++中的以下函数:
void foo(uint32_t *a1, uint32_t *a2, uint32_t *b1, uint32_t *b2, uint32_t *o) {
while (b1 != b2) {
// assert(0 <= *b1 && *b1 < a2 - a1)
*o++ = a1[*b1++];
}
}
b1
包含随机数据并破坏了缓存,这使
foo
成为了我程序的瓶颈。无论如何,我可以对其进行优化吗?
#include <iostream>
#include <chrono>
#include <algorithm>
#include <numeric>
namespace {
void foo(uint32_t *a1, uint32_t *a2, uint32_t *b1, uint32_t *b2, uint32_t *o) {
while (b1 != b2) {
// assert(0 <= *b1 && *b1 < a2 - a1)
*o++ = a1[*b1++];
}
}
constexpr unsigned max_n = 1 << 24, max_q = 1 << 24;
uint32_t data[max_n], index[max_q], result[max_q];
}
int main() {
uint32_t seed = 0;
auto rng = [&seed]() { return seed = seed * 9301 + 49297; };
std::generate_n(data, max_n, rng);
std::generate_n(index, max_q, [rng]() { return rng() % max_n; });
auto t1 = std::chrono::high_resolution_clock::now();
foo(data, data + max_n, index, index + max_q, result);
auto t2 = std::chrono::high_resolution_clock::now();
std::cout << std::chrono::duration<double>(t2 - t1).count() << std::endl;
uint32_t hash = 0;
for (unsigned i = 0; i < max_q; i++)
hash += result[i] ^ (i << 8) ^ i;
std::cout << hash << std::endl;
}
b
是排列。
最佳答案
首先,让我们看一下上面代码的实际性能:
$ sudo perf stat ./offline-read
0.123023
1451229184
Performance counter stats for './offline-read':
184.661547 task-clock (msec) # 0.997 CPUs utilized
3 context-switches # 0.016 K/sec
0 cpu-migrations # 0.000 K/sec
717 page-faults # 0.004 M/sec
623,638,834 cycles # 3.377 GHz
419,309,952 instructions # 0.67 insn per cycle
70,803,672 branches # 383.424 M/sec
16,895 branch-misses # 0.02% of all branches
0.185129552 seconds time elapsed
sudo ../pmu-tools/ocperf.py stat -e cycles,LLC-load-misses,cycle_activity.stalls_l3_miss ./offline-read
perf stat -e cycles,LLC-load-misses,cpu/event=0xa3,umask=0x6,cmask=6,name=cycle_activity_stalls_l3_miss/ ./offline-read
0.123979
1451229184
Performance counter stats for './offline-read':
622,661,371 cycles
16,114,063 LLC-load-misses
368,395,404 cycle_activity_stalls_l3_miss
0.184045411 seconds time elapsed
foo()
中以这种方式停顿的那部分周期要高得多,接近90%,因为
perf
还在测量init和
accumulate
代码,这大约占运行时间的三分之一(但没有L3未命中率)。
a1[*b1++]
基本上将具有零局部性。实际上,
LLC-load-misses
的数量为1600万,几乎完全对应于
a1
.2的1600万随机读取。
foo()
的100%花费在等待内存访问上,则可以了解每次未命中的总成本:
0.123 sec / 16,114,063 misses == 7.63 ns/miss
。在我的盒子上,在最佳情况下,内存延迟大约为60 ns,因此每次未命中少于8 ns意味着我们已经在提取很多内存级并行性(MLP):大约8个未命中必须重叠,并且-平均而言就可以实现这一目标(甚至完全忽略了
b1
的流负载和
o
的流写入带来的额外流量)。
o
。这将消除
RFO对常规存储的隐含读取。因为
o
再也不会被读取(在定时部分内!),这应该是直接的胜利。
a1
或
b1
的预取可能会有所帮助。但是,由于我们已经接近如上所述的MLP限制,因此影响将是相当有限的。另外,我们希望
b1
的线性读取几乎可以完全由硬件预取器预取。
a1
的随机读取似乎可以进行预取,但是实际上,循环中的ILP通过无序处理(至少在像最近的x86这样的大型OoO处理器上)会导致足够的MLP。
b1
进行排序(以及索引元素的原始位置),然后按排序顺序从
a1
进行读取。这将
a1
的读取从完全随机转换为几乎3个线性,但现在写入都是随机的,这再好不过了。
a1
的控制下
b1
的读取是随机的,而
a1
很大,因此每次读取都会导致DRAM丢失。我们可以通过对
b1
进行排序,然后读取
a1
来解决此问题,以获得排列结果。现在,您需要“取消置换”结果
a1
以获得最终顺序的结果,这只是另一种形式,这次是在“输出索引”上。
a
,索引数组
b
和输出数组
o
和
i
的工作示例,其中
b
是每个元素的(隐式)位置:
i = 0 1 2 3
a = [00, 10, 20, 30]
b = [ 3, 1, 0, 1]
o = [30, 10, 00, 10] (desired result)
i
进行排序,将原始数组位置
(b[0], 0), (b[1], 1), ...
作为辅助数据(或者,您可能将其视为排序元组
b
),这将为您提供排序后的
b'
数组
i'
和排序后的索引列表
o'
如下所示:
i' = [ 2, 1, 3, 0]
b' = [ 0, 1, 1, 3]
a
的控制下从
b'
读取排列的结果数组
memcpy
。严格按顺序增加此读取,并且应该能够以接近
o'
的速度运行。实际上,您可能可以利用宽范围的连续SIMD读取和一些改组来进行几次读取,然后一次将4字节的元素移到正确的位置(复制某些元素而跳过其他元素):
a = [00, 10, 20, 30]
b' = [ 0, 1, 1, 3]
o' = [00, 10, 10, 30]
o
排序
o'
来取消对
i'
的置换以获得
b
:
i' = [ 2, 1, 3, 0]
o' = [00, 10, 10, 30]
i = [ 0, 1, 2, 3]
o = [30, 10, 00, 10]
a
进行排序。您只想对其进行“足够的”排序,以使在
b'
的控制下对
0, 1, 3, 2, 5, 4, 6, 7
的后续读取或多或少是线性的。例如,高速缓存行中可容纳16个元素,因此根本不需要基于最后4位进行排序:无论如何,都将读取相同的线性高速缓存行序列。您还可以对更少的位进行排序:例如,如果忽略了5个最低有效位,则将以“几乎线性”的方式读取高速缓存行,有时会从完全线性的模式中交换两条高速缓存行,例如:
b
。在这里,您仍将获得L1高速缓存的全部好处(随后对高速缓存行的读取将始终有效),而且我怀疑这样的模式仍会被良好地预取,如果不能,则始终可以通过软件预取来帮助它。
a
来撤消,则忽略位意味着在撤消搜索时您将获得相同的节省。
b'
块继续读取
o'
。您可以确保此块是连续的(即,最后排序的序列的后缀),因此您不会在读取中放弃任何局部性,并且通常会缓存您的读取。由于
o'
的块在高速缓存中也很热,因此您也可以进行第一次置换
o'
的过程(也许您可以将后两个阶段组合成一个循环)。
i
的去置换是如何实现的。在上面的描述中,我们假设一些索引数组
[0, 1, 2, ..., max_q]
最初的值是
b
,并与
i
一起排序。从概念上讲,它是如何工作的,但是您可能不需要立即实际实现
i
并将其作为辅助数据进行排序。例如,在基数排序的第一遍中,
b
的值是隐式已知的(因为您正在遍历数据),因此可以为free4计算它并在第一遍中将其写出,而无需出现所有内容排序顺序。
max_n
数组从概念上讲具有执行取消排序所需的所有信息,但是我很清楚如何使用它来有效地进行排序。
max_q
和
max_n >> max_q
的相对值。例如,如果使用
max_n << max_q
,则即使具有最佳排序,读取结果也将是“稀疏”的,因此,幼稚的方法会更好。另一方面,如果
foo()
,则通常将多次读取同一索引,因此排序方法将具有良好的读取位置,排序步骤本身将具有更好的位置,并且可能有可能进一步进行优化以显式处理重复读取。
a
的幼稚解决方案确实已经接受了“直接”并行化,其中您只需将
b
和
LLC-load-misses
数组划分为相等大小的块,并为每个线程分配,这似乎可以提供完美的加速。不幸的是,您可能会发现比线性缩放更糟,因为您将遇到内存控制器中的资源争用以及套接字上所有内核之间共享的相关非核心/非核心资源。因此,当您添加更多核心时,尚不清楚纯粹并行并行读取加载到内存将获得多少吞吐量6。
b1
没有说32或4,800万,因为我们还必须读取
accumulate()
的所有1600万个元素,然后
result
调用读取所有的
LLC-load-misses
。答案是
a1
仅计算L3中实际未命中的需求未命中。上面提到的其他读取模式完全是线性的,因此预取器将始终在需要时将线引入L3。根据perf使用的定义,这些不算作“ LLC未命中”。
foo
中的
perf record
读取:我只是使用
perf mem
和
b1
来确认这些不命中来自预期的汇编指令。
i
并非所有索引的排列,因此原则上可以跳过和重复索引。但是,在高速缓存行级别,很有可能会按顺序读取每条高速缓存行,因为每个元素被包含的机率约为63%,并且高速缓存行有16个4字节元素,因此只有任何给定的缓存具有零元素的概率约为1千万分之一。因此,在高速缓存行级别上起作用的预取将正常工作。
[0, 1, 2, ...]
写入的
max_q
数组
max_q
,然后再次需要另一个
foo()
写入以将其按第一个基数排序通过。隐式实现仅导致第二次写入。
关于algorithm - 缓存友好的离线随机读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46059524/
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。 问题如下:- 隐私和匿名化 马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
我最近接受了一次面试,面试官给了我一些伪代码并提出了相关问题。不幸的是,由于准备不足,我无法回答他的问题。由于时间关系,我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题,以便我可以改
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我想学习一些关于分布式算法的知识,所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣,因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面,我不想对算法进行原始的数学分析。只是
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”,例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树),而不是学术项目? 当有
我正在解决旧编程竞赛中的一些示例问题。在这个问题中,我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟,我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。 解决
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我开始学习 Nodejs,但我被困在中间的某个地方。我从 npm 安装了一个新库,它是 express -jwt ,它在运行后显示某种错误。附上代码和错误日志,请帮助我! const jwt = re
我有一个证书,其中签名算法显示“sha256rsa”,但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么? 谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
我目前在我的大学学习数据结构类(class),并且在之前的类(class)中做过一些算法分析,但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
有一个由 N 个 1x1 方格组成的区域,并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。 下面是一些面积的例子。 我想在这个区域中选择一些方块,并且两个相邻的方块不能一起选择(对角接触
我有一些多边形形状的点列表,我想将其包含在我页面上的 Google map 中。 我已经从原始数据中删除了尽可能多的不必要的多边形,现在我剩下大约 12 个,但它们非常详细以至于导致了问题。现在我的文
我目前正在实现 Marching Squares用于计算等高线曲线,我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
是否有包含反函数的库? 作为项目的一部分,我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中,我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。 我搜索了一种替代算法并
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”,但我的问题是,它是什么? 谁能解释一下? 最佳答案 一种生成 ID 的方法,该 ID 具有一定的唯一性保证,而不
在做一个项目时我遇到了这个问题,我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状,但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。 我有 n 个不同大小的容器,
我是一名优秀的程序员,十分优秀!