gpt4 book ai didi

cuda - 当所有线程束都读取同一全局内存时会发生什么?

转载 作者:行者123 更新时间:2023-12-04 09:54:24 28 4
gpt4 key购买 nike

我想知道当warp的所有线程读取全局内存的相同32位地址时发生了什么。有多少个内存请求?是否有任何序列化。 GPU是Fermi卡,编程环境是CUDA 4.0。

此外,有人可以解释巴士使用率的概念吗?缓存加载和非缓存加载有什么区别?我在http://theinf2.informatik.uni-jena.de/theinf2_multimedia/Website_downloads/NVIDIA_Fermi_Perf_Jena_2011.pdf中看到了这个概念。

最佳答案

warp中的所有线程都访问全局内存中的相同地址

对于AMD GPU,我可以全力以赴地回答您的问题。对于Nvidia,谷歌搜索足够快地找到了答案。


我想知道当warp的所有线程读取全局内存的相同32位地址时发生了什么。有多少个内存请求
那里?是否有任何序列化。 GPU是Fermi卡,
编程环境为CUDA 4.0。


2009年的http://developer.download.nvidia.com/CUDA/training/NVIDIA_GPU_Computing_Webinars_Best_Practises_For_OpenCL_Programming.pdf说:


合并:

全局内存延迟:400-600个周期。最重要的
性能考量!

半扭曲线程的全局内存访问可以合并为
一笔交易,大小为8位,16位,32位,64位或2个字
128位交易。

全局存储器可以看作是由16和16对齐的段组成
32个字。

合并计算能力1.0和1.1:

半扭曲中的第k个线程必须访问一个段中的第k个单词;
但是,并非所有线程都需要参与

合并计算能力
1.2和1.3:

合并适合段大小的任何访问模式


因此,听起来好像让翘曲的所有线程访问全局内存的相同32位地址都可以正常工作,并且在计算能力大于等于1.2的情况下也可以希望如此。但不适用于1.0和1.1。

您的卡还可以。

我必须承认,我还没有为Nvidia进行过测试。我已经为AMD测试了它。



缓存和未缓存负载之间的区别

首先,请参见您引用的演示文稿的幻灯片4 http://theinf2.informatik.uni-jena.de/theinf2_multimedia/Website_downloads/NVIDIA_Fermi_Perf_Jena_2011.pdf

即标题为“ CPU与GPU之间的差异”的幻灯片-表示CPU具有巨大的缓存,而GPU没有。

几年前,这样的幻灯片可能已经表明GPU根本没有任何缓存。然而,GPU已经开始增加越来越多的缓存,和/或越来越多的本地切换到缓存。

我不确定您是否了解计算机体系结构中的“缓存”。这是一个很大的话题,所以我只提供一个简短的答案。

基本上,缓存就像本地内存一样。高速缓存和本地内存-比DRAM,主内存(无论是GPU的专用DRAM还是CPU的系统内存)都更靠近处理器或GPU。 DRAM主内存被Nvidia全局内存调用。幻灯片9对此进行了说明。

缓存和本地内存都比DRAM全局内存更靠近GPU:在幻灯片9上,它们被绘制为与GPU在同一芯片内,而DRAM是分开的芯片。这可以对延迟,吞吐量,功耗以及总线利用率(与带宽有关)产生若干良好影响。

延迟:全局内存距离为400-800个周期。这意味着,如果您的应用程序中只有一个扭曲,它将每400-800个周期仅执行一次内存操作。这意味着,为了不减慢速度,您需要许多线程/线程来产生可以并行运行的内存请求,即具有高MLP(内存级别并行性)的内存请求。幸运的是,图形通常可以做到这一点。缓存更近,因此等待时间更短。您的幻灯片没有说明它是什么,但是其他地方说50-200个周期,比全局内存快4-8倍。这意味着需要更少的线程和线程束来避免速度降低。

吞吐量/带宽:与DRAM全局内存相比,本地内存和/或缓存的带宽通常更大。您的幻灯片显示1 TB / s的速度与177 GB / s的速度-即缓存和本地内存的速度提高了5倍以上。更高的带宽可能会转化为明显更高的帧速率。

功耗:您可以节省大量用于缓存或本地内存而不是DRAM全局内存的电源。这对台式游戏PC可能无关紧要,但对笔记本电脑或平板电脑则很重要。实际上,这甚至对于台式机游戏PC也很重要,因为更少的功耗意味着它可以(超频)更快。

好的,因此本地和缓存在上面是相似的吗?有什么不同?

基本上,比本地存储器更容易对缓存进行编程。需要非常好的,专家的,nionja程序员来适当地管理本地内存,根据需要从全局内存中复制内容,并将其清除。高速缓存内存更易于管理,因为您只需执行高速缓存的加载,并且内存会自动放入高速缓存中,下次可以更快地访问它。

但是缓存也有缺点。

首先,它们实际上比本地存储器消耗更多的功率,或者,如果实际上存在单独的本地和全局存储器,则它们会消耗更多功率。但是,在Fermi中,可以将本地内存配置为缓存,反之亦然。 (多年来,GPU人士表示:“我们不需要散发性的缓存-缓存标签和其他开销很浪费。)

更重要的是,缓存倾向于在缓存行上运行-但并非所有程序都可以。这导致您提到的总线利用率问题。如果warp访问高速缓存行中的所有单词,那就太好了。但是,如果warp仅访问高速缓存行中的1个字,即1个4字节字,然后跳过124个字节,则128个字节的数据将通过总线传输,但仅使用4个字节。即浪费了96%以上的总线带宽。这是低总线利用率。

而下一张幻灯片显示,非缓存加载(suich可能会用来将数据加载到本地内存中)仅传输32个字节,因此浪费了32个字节中的“仅28个”字节。换句话说,非缓存负载的效率可以比缓存负载高4倍,快4倍。

那么,为什么不到处使用非缓存负载呢?因为他们很难编程-这需要专业的忍者程序员。而且缓存在很多时候都能很好地工作。

因此,与其花钱让专家忍者程序员花很多时间来优化所有代码以使用非缓存负载和手动管理的本地内存,不如使用缓存负载来做简单的事情,而让高薪的专家忍者程序员专注于缓存无法正常运行的工作。

此外:没有人喜欢承认它,但通常情况下,缓存的性能要优于专家忍者程序员。

希望这可以帮助。
吞吐量,功率和总线利用率:除了减少

关于cuda - 当所有线程束都读取同一全局内存时会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10733205/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com