- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我一直在尝试提高 OpenMP 解决方案的性能,该解决方案通常需要处理数组上的嵌套循环。虽然我已经设法将串行实现的时间从 59 秒降低到 37 秒(在老化的双核 Intel T6600 上),但我担心缓存同步会引起 CPU 的大量关注(当 CPU 应该解决我的问题时! )。我一直在努力设置分析器,所以我还没有验证这一说法,但无论如何我的问题仍然存在。根据this lecture关于负载均衡:
Instead of doing work, the CPUs are busy fighting over the only used cache line in the program. You can fix this with a very strange technique: move the CPUs data apart in memory further than one cache line. For example, here we move the integers accessed by each thread 20 units apart.
然后继续提供相关源代码(应该在四核上运行,因此是 %4
)
#pragma omp parallel for schedule(static,1)
for (unsigned int i=0;i<n;i++) {
arr[(i%4)*20]++;
}
也就是说,我对“ block ”是什么有一种直觉,但上面的实现似乎完全忽略了它,让我相信我的直觉是错误的。
我的问题是这样的:设置相当大的 block 值是否会将数据进一步移到缓存行中? IE。上面的代码不等于
#pragma omp parallel for schedule(static, 20)
for (unsigned int i=0;i<n;i++) {
arr[i]++;
}
最佳答案
您给出的两个代码片段并不等效,因为第一个代码片段会不断重复大于 4 的 n
的相同元素。处理此类数组的正确方法是确保 sizeof(arr[0]) * n/#cores
是缓存行大小的倍数。现代 x86 CPU 的缓存行大小为 64 字节。如果 arr 是整数或单精度 float 组,则 sizeof(arr[0]) == 4 并且单个缓存行可容纳 16 个元素。对于双倍大小的数据类型,单个缓存行可容纳 8 个元素。最佳循环调度 block 大小在前一种情况下是 16 的倍数,在后一种情况下是 8 的倍数。
在处理静态调度的循环时,人们会尝试最大化 block 大小,以减少每个线程运行的循环数量。例如,如果有 4 个线程,n
为 64, block 大小设置为 8,则将使用以下调度:
thread iterations (from-to)
------ --------------------
0 0- 7, 32-39
1 8-15, 40-47
2 16-23, 48-53
3 24-31, 54-63
这远非最佳,因为每个线程都必须运行循环两次。更好的解决方案是将 block 大小设置为 16(8 的倍数):
thread iterations (from-to)
------ --------------------
0 0-15
1 16-31
2 32-47
3 48-63
请注意,静态调度循环的默认 block 大小为#iterations/#threads
。
有时,必须并行处理无法分布在非重叠缓存行之间的数据。例如,arr[]
可能只是一个由 4 个元素组成的数组,全部适合单个缓存行。在这种情况下,应该在数组元素之间插入填充,以确保不同线程正在处理的数据位于不同的缓存行中。例如:
int arr[4];
#pragma omp parallel for
for (int i = 0; i < 4; i++)
arr[i]++;
int arr[4]
结果如下内存布局:
|<-------- a single cache line ---------->|
| arr[0] | arr[1] | arr[2] | arr[3] | ... |
如果核心 0 更新 arr[0]
并且核心 1 更新 arr[1]
,则缓存行将不断在两个核心之间反弹 - 错误共享和错误表现。因此,必须在 arr[0]
和 arr[1]
之间插入大小为 CLS - sizeof(arr[0])
字节的填充,或者CLS/sizeof(arr[0]) - 1
数组元素,其中 CLS
是缓存行的大小(以字节为单位)。使用 CLS == 64
和 sizeof(arr[0]) == 4
这会产生 15 个填充元素。最终的布局将是:
|<----- one cache line ------>|<--- another cache line ---->|<-- yet another ...
| arr[0] | 15 unused elements | arr[1] | 15 unused elements | arr[2] | ...
截取的代码应修改为:
// cache line size in number of int elements
#define CLS (64/sizeof(int))
int arr[4*CLS];
#pragma omp parallel for
for (int i = 0; i < 4; i++)
arr[i*CLS]++;
另一个可以简化代码的选项是将每个数据元素包装在一个结构中,并将填充放入结构中:
// cache line size in number of bytes
#define CLS (64)
typedef struct _item
{
int data;
int padding[CLS/sizeof(int)-1];
} item;
item arr[4];
#pragma omp parallel for
for (int i = 0; i < 4; i++)
arr[i].data++;
无论您使用哪种方法,请记住,由于各种体系结构具有不同的缓存行大小,此类代码将变得不可移植。
关于c - 使用 OpenMP block 来破坏缓存,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18342033/
我阅读了有关 JSR 107 缓存 (JCache) 的内容。 我很困惑:据我所知,每个 CPU 都管理其缓存内存(无需操作系统的任何帮助)。 那么,为什么我们需要 Java 缓存处理程序? (如果C
好吧,我是 jQuery 的新手。我一直在这里和那里搞乱一点点并习惯它。我终于明白了(它并不像某些人想象的那么难)。因此,鉴于此链接:http://jqueryui.com/sortable/#dis
我正在使用 Struts 2 和 Hibernate。我有一个简单的表,其中包含一个日期字段,用于存储有关何时发生特定操作的信息。这个日期值显示在我的 jsp 中。 我遇到的问题是hibernate更
我有点不确定这里发生了什么,但是我试图解释正在发生的事情,也许一旦我弄清楚我到底在问什么,就可能写一个更好的问题。 我刚刚安装了Varnish,对于我的请求时间来说似乎很棒。这是一个Magneto 2
解决 Project Euler 的问题后,我在论坛中发现了以下 Haskell 代码: fillRow115 minLength = cache where cache = ((map fill
我正试图找到一种方法来为我网络上的每台计算机缓存或存储某些 python 包。我看过以下解决方案: pypicache但它不再被积极开发,作者推荐 devpi,请参见此处:https://bitbuc
我想到的一个问题是可以从一开始就缓存网络套接字吗?在我的拓扑中,我在通过双 ISP 连接连接到互联网的 HAProxy 服务器后面有 2 个 Apache 服务器(带有 Google PageSpee
我很难说出不同缓存区域 (OS) 之间的区别。我想简要解释一下磁盘\缓冲区\交换\页面缓存。他们住在哪里?它们之间的主要区别是什么? 据我了解,页面缓存是主内存的一部分,用于存储从 I/O 设备获取的
1.题目 请你为最不经常使用(LFU)缓存算法设计并实现数据结构。 实现 LFUCache 类: LFUCache(int capacity) - 用数据结构的容量 capacity 初始化对象 in
1.题目 请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: ① LRUCache(int capacity) 以正整数作为容量 capacity
我想在访问该 View 时关闭某些页面的缓存。它适用于简单查询模型对象的页面。 好像什么时候 'django.middleware.cache.FetchFromCacheMiddleware', 启
documents为 ExePackage element state Cache属性的目的是 Whether to cache the package. The default is "yes".
我知道 docker 用图层存储每个图像。如果我在一台开发服务器上有多个用户,并且每个人都在运行相同的 Dockerfile,但将镜像存储为 user1_myapp . user2 将其存储为 use
在 Codeigniter 中没有出现缓存问题几年后,我发现了一个问题。我在其他地方看到过该问题,但没有适合我的解决方案。 例如,如果我在 View 中更改一些纯 html 文本并上传新文件并按 F5
我在 Janusgraph 文档中阅读了有关 Janusgraph Cache 的内容。关于事务缓存,我几乎没有怀疑。我在我的应用程序中使用嵌入式 janusgrah 服务器。 如果我只对例如进行读取
我想知道是否有来自终端的任何命令可以用来匹配 Android Studio 中执行文件>使缓存无效/重新启动的使用。 谢谢! 最佳答案 According to a JetBrains employe
我想制作一个 python 装饰器来内存函数。例如,如果 @memoization_decorator def add(a, b, negative=False): print "Com
我经常在 jQuery 事件处理程序中使用 $(this) 并且从不缓存它。如果我愿意的话 var $this = $(this); 并且将使用变量而不是构造函数,我的代码会获得任何显着的额外性能吗?
是的,我要说实话,我不知道varnish vcl,我可以解决一些基本问题,但是我不太清楚,这就是为什么我遇到问题了。 我正在尝试通过http请求设置缓存禁止,但是该请求不能通过DNS而是通过 Varn
在 WP 站点上加载约 4000 个并发用户时遇到此问题。 这是我的配置: F5 负载均衡器 ---> Varnish 4,8 核,32 Gb RAM ---> 9 个后端,4 个核,每个 16 RA
我是一名优秀的程序员,十分优秀!