gpt4 book ai didi

memory - 您可以获得多接近 GPU 理论内存带宽?

转载 作者:行者123 更新时间:2023-12-03 17:00:37 24 4
gpt4 key购买 nike

假设您有一个内存受限的 GPU 内核,您能达到规定的 GPU 理论带宽有多接近?即使在 Mark Harris's Optimising Parallel Reduction presentation他“仅”获得 63GB/秒,大约是他的测试 GPU(G80)带宽的 73%,他声称其峰值带宽为 84.6GB/秒。哈里斯能否进一步优化他的内核?是否还有其他技术可能会被推进/超出演示范围?例如__shfl 类型指令?为什么他没有实现更高的带宽?

This文章声称,使用带有 Tesla C2050 的测试机

"throughput is memory-bandwidth limited, sustaining around 75% of the 144 GB/s peak memory bandwidth, compared to a practical limit of 85% of peak when accounting for overheads such as DRAM refresh."

这是正确的吗?作者没有提供“85% 的实际带宽限制”的来源,我也找不到其他提及它的内容。如果是这样,还有哪些其他因素(假设您有一个非常优化的内核)会阻止您达到理论峰值带宽?

最佳答案

类似的主题:GPU Memory bandwidth theoretical vs practical

运行一个只将数据写入一维大向量的最小内核:

__global__ void kernel( int *out ) {
int idx = threadIdx.x + blockIdx.x * blockDim.x;
out[idx] = idx%4;
}

在 GeForce GT 710 上我得到了理论带宽的 0.9

practical 12.9 GB/s.

theoretical (spec) 14.4 GB/s

可能导致速度变慢的一个因素是缓存。

关于memory - 您可以获得多接近 GPU 理论内存带宽?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26321992/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com