gpgpu - GPGPU编程仅允许执行SIMD指令吗？-6ren

gpgpu - GPGPU编程仅允许执行SIMD指令吗？

转载作者：行者123 更新时间：2023-12-04 18:43:21

GPGPU编程仅允许执行SIMD指令吗？
如果是这样，那么重新编写具有以下特征的算法必须是一项繁琐的任务：
被设计为在通用CPU上运行以在GPU上运行？也有一个
可以转换为SIMD架构的算法中的模式？

最佳答案

好吧，GPGPU仅支持SIMD执行并不是很准确。许多GPU具有一些非SIMD组件。但是，总的来说，要充分利用GPU，您需要运行SIMD代码。

但是，您不一定要编写SIMD指令。即GPU SIMD与CPU SIMD不同-即与编写代码以利用x86 SSE（Stream SIMD扩展）等不同。事实上，作为向您推崇CPU SIMD的人之一（我参与其中英特尔MMX是最早的一种，并且一直沿用到FP SIMD的演变。）我经常不得不纠正那些认为像英特尔这样的CPU具有SIMD指令的人。我更喜欢将它们视为打包矢量指令，尽管我勉强称其为SIMD打包矢量指令集，只是因为每个人都滥用该名称。我还强调，CPU SIMD指令集（例如MMX和SSE）可能具有SIMD打包矢量执行单元-整数和浮点ALU等-但它们没有SIMD控制流，并且通常没有SIMD内存访问权限（又名散布/聚集（尽管Intel Larrabee朝着这个方向发展））。

我的comp-arch.net Wiki上有一些与此相关的页面（我为自己的爱好写了计算机体系结构）：
-http://semipublic.comp-arch.net/wiki/SIMD
-http://semipublic.comp-arch.net/wiki/SIMD_packed_vector
-http://semipublic.comp-arch.net/wiki/Difference_between_vector_and_packed_vector
-http://semipublic.comp-arch.net/wiki/Single_Instruction_Multiple_Threads_(SIMT)
尽管我还没有像Intel MMX或SIMD那样写过有关SIMD打包矢量指令序列的文章，对此我深表歉意。

但我不希望您阅读以上所有内容。让我尝试解释一下。

想象一下，当以简单的标量方式编写时，您有一段类似于以下代码的代码：

// operating on an array with one million 32b floating point elements A[1000000]
for i from 0 upto 999999 do
     if some_condition(A[i]) then
           A[i] = function1(A[i])
     else
           A[i] = function2(A[i])

其中function1（）和function2（）非常简单，可以内联-假设function1（x）= x * x和function2（x）= sqrt（x）。

在CPU上。要使用SSE之类的东西，您必须（1）将数组划分为大块，例如256位AVX的大小；（2）自己使用掩码等来处理IF语句。就像是：

for i from 0 upto 999999 by 8 do
     register tmp256b_1 = load256b(&A[i])
     register tmp256b_2 = tmp256b_1 * tmp256b_1
     register tmp256b_3 = _mm_sqrt_ps(tmp256b_1) // this is an "intrinsic"
                                                 // a function, possibly inlined
                                                 // doing a Newton Raphson to evaluate sqrt.
     register mask256b = ... code that arranges for you to have 32 1s in the "lane" 
                         where some_condition is true, and 0s elsewhere...
     register tmp256b_4 = (tmp256b_1 & mask) | (tmp256b_3 | ~mask);
     store256b(&A[i],tmp256b_4)

您可能不会认为这很糟糕，但是请记住，这是一个简单的示例。想象一下多个嵌套的IF，依此类推。或者，假设“ some_condition”很笨重，那么您可以跳过全部为function1或全部function2的部分，从而节省大量不必要的计算...

for i from 0 upto 999999 by 8 do
     register mask256b = ... code that arranges for you to have 32 1s in the "lane" 
                         where some_condition is true, and 0s elsewhere...
     register tmp256b_1 = load256b(A[i])
     if mask256b == ~0 then
         register tmp256b_2 = tmp256b_1 * tmp256b_1
         store256b(&A[i],tmp256b_2)
     else mask256b == 0 then
         register tmp256b_3 = _mm_sqrt_ps(tmp256b_1) // this is an "intrinsic"
         store256b(&A[i],tmp256b_3)
     else
         register tmp256b_1 = load256b(&A[i])
         register tmp256b_2 = tmp256b_1 * tmp256b_1
         register tmp256b_3 = _mm_sqrt_ps(tmp256b_1)
         register tmp256b_4 = (tmp256b_1 & mask) | (tmp256b_3 | ~mask);
         store256b(&A[i],tmp256b_4)

我想你能得到照片吗？当您拥有多个数组时，情况变得更加复杂，有时数据在256位边界上对齐，而有时则不是（按照通常在模板计算中进行所有对齐的方式进行对齐）。

现在，大致类似于GPU之类的样子：

// operating on an array with one million 32b floating point elements A[1000000]
for all i from 0 upto 999999 do
     if some_condition(A) then
           A = function1(A)
     else
           A = function2(A)

那看起来更像原始的标量代码吗？唯一的实际区别是您丢失了数组索引A [i]。（实际上，某些GPGPU语言将数组索引保留在其中，但我所知道的大多数都没有。）

现在，我省去了（a）Open / CL的类似于C的语法，（b）将Open / CL代码连接到C或C ++代码所需的所有设置（比CUDA或OpenCL更好的语言） -这些问题很多，但是在CPU和GPU [**]上它们都可以在很多地方使用。但是我想我已经提出了问题的核心：

GPGPU计算的关键之处在于您可以并行写入SIMD数据。但是，您编写的级别比编写CPU风格的SSE代码的级别更高。甚至比编译器内部函数更高的级别。

首先是GPGPU编译器，例如OpenCL或CUDA编译器，可以处理很多后台数据管理。编译器安排执行控制流，IF语句等。

顺便说一句，请注意，正如我用[**]标记的那样，有时所谓的SIMD GPGPU编译器可以生成可同时在CPU和GPU上运行的代码。即SIMD编译器可以生成使用CPU SIMD指令集的代码。

但是GPU本身具有特殊的硬件支持，该硬件可以运行经过适当编译的SIMD代码，比使用CPU SIMD指令在CPU上运行的速度要快得多。最重要的是，GPU具有更多执行单元-例如像AMD Bulldoser这样的CPU具有2组128位宽的FMACS，即每个周期能够执行8个FMAC。将芯片上的CPU数量乘以8（例如8），每个周期可能给您64个。而现代GPU每个周期可能有2,048个32b FMAC。即使以1/2或1/4的时钟速率运行，这也是一个很大的差异。

GPU如何拥有更多的硬件？好吧，首先，它们通常是比CPU大的芯片。但是，他们也倾向于不花费（有人说是“浪费”）硬件来处理诸如大型缓存和CPU花费大量时间执行的乱序操作。 CPU尝试快速执行一个或几个计算，而GPU并行执行许多计算，但分别比CPU慢。尽管如此，GPU每秒可以执行的计算总数仍远高于CPU可以执行的计算总数。

FGPU还有其他硬件优化。例如，它们运行的线程多于CPU。英特尔CPU每个CPU有2个超线程，在8个CPU核心芯片上为您提供16个线程，而GPU可能有数百个。等等。

作为计算机架构师，对我而言最有趣的是，许多GPU都对SIMD控制流提供了特殊的硬件支持。与在运行SSE的CPU上相比，它们使操作这些掩码效率更高。

等等。

无论如何，我希望我已经指出了

虽然您必须编写SIMD代码才能在GPGPU系统（例如OpenCL）上运行。
您不应将此类SIMD与必须编写才能利用Intel SSE的SIMD代码混淆。

干净得多。

越来越多的编译器允许相同的代码在DCPU和GPU上运行。即他们越来越多地支持干净的“真实SIMD”编码样式，而不是伪造的“伪SIMD”编码样式，而伪伪“伪SIMD”编码样式直到现在仍需要利用MMX，SSE和AVX。很好-这种代码在CPU和GPU上编程同样“不错”。但是GPU通常会运行得更快。英特尔的一篇论文名为“揭穿100X GPU与CPU的神话：对CPU和GPU上的吞吐量计算进行评估”， http://www.hwsw.hu/kepek/hirek/2010/06/p451-lee.pdf。它说GPU平均仅“快” 2.5倍。但这是经过大量积极优化之后的结果。 GPU代码通常更容易编写。而且我不了解您，但是我认为“仅” 2.5倍的速度并没有那么令人s目结舌。特别是因为GPGPU代码通常更易于阅读。

现在，没有免费的午餐。如果您的代码自然是数据并行的，那就太好了。但是有些男女同志不是。可能会很痛苦。

而且，像所有机器一样，GPU也有其独特之处。

但是，如果您的代码自然是数据并行的，则代码可读性会大大提高。

我是CPU设计师。我期望从GPU借用很多想法，使雄性CPU的运行速度更快，反之亦然。

关于gpgpu - GPGPU编程仅允许执行SIMD指令吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/7682801/

文章推荐： asp.net - dll 中可重用的 ASP.NET MVC 组件，如 ASP.NET WebControls

文章推荐： python-2.7 - 用python在windows上安装TTF字体

文章推荐： api - 如何使用 http ://www. census.gov API 拉取数据

gpgpu - GPGPU编程仅允许执行SIMD指令吗？
GPGPU编程仅允许执行SIMD指令吗？如果是这样，那么重新编写具有以下特征的算法必须是一项繁琐的任务：被设计为在通用CPU上运行以在GPU上运行？也有一个可以转换为SIMD架构的算法中的模式？
gpgpu - 关于CUDA从block到SM的分布细节问题
以计算能力为1.3的硬件为例。 30 条短信可用。那么最多可以同时运行240个块(考虑到寄存器和共享内存的限制，对块数的限制可能会低很多)。超过 240 的那些块必须等待可用的硬件资源。我的问题是那
gpgpu - CPU和GPU之间的指令传输
我正在寻找与使用 GPGPU 计算时 CPU 如何将程序代码移动到 GPU 相关的信息。互联网上有很多关于数据传输的手册，但没有关于指令/程序加载的手册。问题是:程序由 CPU 处理，它在每个计算单
gpgpu - cuda无效配置错误9
我有一个 Cuda 应用程序；在首先为各种数组分配 cuda 内存后，程序循环执行:将数据传输到 GPU，在 GPU 上处理内核，从 GPU 传回数据。第一个数据集由 GPU 正确处理并返回。此后后续
数据库和 GPGPU
GPGPU 在许多任务(不是全部)上都有很大的潜力，尤其是处理数据库中的矩阵，至少根据围绕该主题的所有 PR。我还没有找到使用 GPGPU 来加速性能的数据库。你知道任何利用 GPGPU 的开源数
cuda - gpgpu:为什么我们不需要细粒度多线程中的分支预测？
当一个 wavefront 执行时，它提供了细粒度的多线程。这样做的后果之一是没有分支预测要求，如下面的幻灯片所示: 但是我无法理解这一点。有人可以用简单的方式解释一下吗？最佳答案分支会在指令流的
performance - GPGPU:还在流血的边缘？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
gpgpu - CUDA:向内核传递参数会大大减慢内核启动速度吗？
CUDA初学者在这里。在我的代码中，我目前在主机代码的循环中多次启动内核。 (因为我需要块之间的同步)。所以我想知道我是否能够优化内核启动。我的内核启动看起来像这样: MyKernel>>(dou
glsl - GPGPU - 有效的乒乓球技术？
我正在尝试使用 WebGL 和 GLSL 着色器编程在 GPU 上实现有效的流体求解器。我发现了有趣的文章: http://http.developer.nvidia.com/GPUGems/gpu
gpgpu - 在混合供应商的硬件上运行 OpenCL
我一直在他们的 Stream 2.0 测试版中使用 ATI OpenCL 实现。当前测试版中的 OpenCL 目前仅使用 CPU，下一个版本应该支持 GPU 内核。我下载了 Stream，因为我的工作
gpgpu - 似乎已达到CUDA限制，但是那是什么限制？
我有一个CUDA程序，似乎正在达到某种资源的某种极限，但是我无法弄清楚该资源是什么。这是内核函数: __global__ void DoCheck(float2* points, int* segme
cuda - GPGPU 上的金融应用
我想知道使用 GPGPU 可以实现什么样的金融应用程序。我知道使用 CUDA 在 GPGPU 上使用蒙特卡罗模拟进行期权定价/股票价格估计。有人可以列举在金融领域的任何应用程序中使用 GPGPU 的各
multithreading - GPGPU 与多核？
从程序员的角度来看，GPGPU 和常规多核/多线程 CPU 编程之间的主要实际区别是什么？具体来说: 哪些类型的问题更适合常规多核，哪些类型更适合 GPGPU？编程模型的主要区别是什么？导致编程模
gpgpu - GPU 和决定论
我正在考虑将一些数学运算卸载到 GPU。由于我已经在使用 D3D11，因此我将使用计算着色器来完成这项工作。但问题是，无论用户拥有什么 GPU，我都需要相同输入的结果相同。 (仅要求它支持计算着色器
gpgpu - GPU 如何以及在何处用于科学模拟？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
opengl - 如何为 GPGPU 扩展顶点着色器功能
我正在尝试在 GLSL 上实现 Scrypt 哈希器(用于 LTC 矿工)(不要问我为什么)。而且，实际上，我坚持使用 HMAC SHA-256 算法。尽管我已经正确实现了 SHA-256(它为输入
gpgpu - 从 arrayfire 数组中检索值作为标准类型和序列化
我最近在 GTC 上看到了 arrayfire 演示，我想我会尝试一下。以下是我在尝试使用它时遇到的一些问题。我在 Windows 7 系统上运行 Visual Studio 2013，使用来自 AM
performance - GPGPU(通用GPU)开发的优缺点是什么？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
gpgpu - 什么是 GPU 上的相干内存？
我曾不止一次偶然发现术语“非连贯”和“连贯”内存 tech papers与图形编程有关。我一直在寻找一个简单明了的解释，但发现大多数是this的“硬核”论文。类型。我很高兴收到关于 GPU 架构上实际
winrt 中的 C# gpgpu
基本上问题是如何在 Metro 应用程序中运行 gpgpu 代码。该库不需要专门用于计算，例如，使用XNA的hlsl(最初是为了渲染东西)进行通用计算(XNA不包含在Metro中，因此是我的问题)。默

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

gpgpu - GPGPU编程仅允许执行SIMD指令吗？