Matlab CUDA基础实验

转载作者：太空宇宙更新时间：2023-11-03 20:21:43

25

4

(正确且有指导意义的回答，见下文)

我开始用 matlab 和 gpu (nvidia gtx660) 做实验。

现在，我编写了这个简单的蒙特卡洛算法来计算 PI。以下是CPU版本:

function pig = mc1vecnocuda(n)
countr=0;
A=rand(n,2);
 for i=1:n

   if norm(A(i,:))<1
    countr=countr+1;
   end
 end
pig=(countr/n)*4;
end

将 100000 个点“扔”到单位圆中，在 CPU 上执行这需要很少的时间:

   >> tic; mc1vecnocuda(100000);toc;

      Elapsed time is 0.092473 seconds.

相反，看看算法的 gpu 化版本会发生什么:

   function pig = mc1veccuda(n)
   countr=0;
   gpucountr=gpuArray(countr);
   A=gpuArray.rand(n,2);
   parfor (i=1:n,1024)
    if norm(A(i,:))<1
        gpucountr=gpucountr+1;
    end
   end

   pig=(gpucountr/n)*4;
   end

现在，这需要很长时间才能执行:

>> tic; mc1veccuda(100000);toc;
Elapsed time is 21.137954 seconds.

我不明白为什么。我对 1024 个工作人员使用了 parfor 循环，因为用 gpuDevice 查询我的 nvidia 卡，1024 是 gtx660 上允许的最大并发线程数。

有人可以帮助我吗？谢谢。

编辑:这是避免 IF 的更新版本:

function pig = mc2veccuda(n)
countr=0;
gpucountr=gpuArray(countr);
A=gpuArray.rand(n,2);
parfor (i=1:n,1024)

    gpucountr = gpucountr+nnz(norm(A(i,:))<1);

end

pig=(gpucountr/n)*4;
end

这是按照 Bichoy 的指南编写的代码(the正确实现结果的代码):

function pig = mc3veccuda(n)
countr=0;
gpucountr=gpuArray(countr);
A=gpuArray.rand(n,2);
Asq = A.^2;
Asqsum_big_column = Asq(:,1)+Asq(:,2);
Anorms=Asqsum_big_column.^(1/2);
gpucountr=gpucountr+nnz(Anorms<1);

pig=(gpucountr/n)*4;
end

请注意 n=1000 万时的执行时间:

>> tic; mc3veccuda(10000000); toc;
Elapsed time is 0.131348 seconds.
>> tic; mc1vecnocuda(10000000); toc;
Elapsed time is 8.108907 seconds.

我没有测试我的原始 cuda 版本 (for/parfor)，因为它的执行需要数小时且 n=10000000。

伟大的双鱼! ;)

最佳答案

我想问题出在 parfor 上!

parfor 应该在 MATLAB worker 上运行，那是你的主机而不是 GPU!我想实际发生的事情是您在主机上(而不是在 GPU 上)启动了 1024 个线程，并且每个线程都在尝试调用 GPU。这会导致您的代码花费大量时间。

尝试重新编写代码以使用矩阵和数组运算，而不是 for 循环!这将显示一些加速。另外，请记住，您应该在 GPU 中进行更多计算，否则内存传输将支配您的代码。

代码:

这是在包含了几个人的所有更正和建议之后的最终代码:

function pig = mc2veccuda(n)
  A=gpuArray.rand(n,2); % An nx2 random matrix
  Asq = A.^2; % Get the square value of each element
  Anormsq = Asq(:,1)+Asq(:,2); % Get the norm squared of each point
  gpucountr = nnz(Anorm<1); % Check the number of elements < 1
  pig=(gpucountr/n)*4;

关于Matlab CUDA基础实验，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15988669/

25

4

0

文章推荐： matlab - 向量化 matlab 列归一化

文章推荐： css - 为什么我用于隐藏和显示的基本 CSS 代码不起作用？

文章推荐： jquery - 如何更改 jQuery Mobile 选择菜单的颜色？

文章推荐： c# - 添加到 session ASP.NET C#

MySQL "GROUP BY"实验
我正在测试 SQL，但我陷入了一个查询。这是一个无用的查询，但我想理解它。 select count(*), floor(rand()*2) as x from table_name group by
Linux 实验 - 发出命令时文件数量增加
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
运行时的 golang 实验
在我编写代码时，我经常喜欢查看代码库中特定区域的工作原理或某些表达式产生的结果。大多数其他语言都提供了在运行时评估新的自定义表达式的工具。 Golang 似乎还没有提供这个功能，或者至少没有我使用过
详解kvm部署三个虚拟机实现 WordPress 实验
1、kvm 简介 kernel-based virtual machine的简称，是一个开源的系统虚拟化模块，自linux 2.6.20之后集成在linux的各个主要发行版本中。它使用linux
relayjs - 如何在中继现代(实验)中共享用于创建和更新对象的相同表单？
我是中继新手，我正在尝试在并发模式下使用中继现代实验。我已经能够使用 Suspense 和 ErrorBoundary 很好地加载节点、边等。我现在正在处理用于创建和更新对象的表单。我无法弄清楚如何
封闭系统 shellcode 实验(段错误)
我正在参加在线软件安全类(class)。我正在尝试使用 shellcode 进行实验。我编写了一个易受攻击的服务器、一个注入(inject)程序、一个(可能已损坏的)shellcode，我将其转换为程
忽略时区偏移量的 Javascript 日期时间字符串(实验)
我最糟糕的噩梦是日期对象，所以我创建了一个 fiddle 来查看它是如何工作的，并尝试为以下格式的 date strings 找到解决方案 2015-10- 05T11:49:13.587Z 但要注意
javascript - 实验 Chrome 功能有问题吗？
我一直在研究 Accessibility Object Model API，我认为尝试在 Puppeteer 测试中使用它会很酷。 getComputedAccessibleNode 返回一个 pro
C++11 实验，为什么我不能使用某些功能？
我目前正在概述 C++11 的新特性，由于目前不明原因，其中一些特性无法编译。我使用 gcc version 4.6.0 20100703 (experimental) (GCC) 所以根据 GNU
32、JVM 调优实战 - 实验：模拟对象进入老年代的场景
1.动态年龄判定规则对象进入老年代的4个常见的时机： 1、躲过15次gc，达到15岁高龄之后进入老年代； 2、动态年龄判定规则，如果Survivor区域内年龄1+年龄2+年龄3+年龄n的对象
ray - 在满足复杂条件时提前停止 ray.tune 实验？
有没有办法停止ray.tune实验(例如使用 PBT)当明显过度拟合或一个指标长时间没有改善时？最佳答案现在，这在 Tune 中得到了很好的支持，https://github.com/ray-pr
c++ - 实验::filesystem linker error
我尝试在gcc 6.0的开发中实际使用新的c++ 1z功能。如果我尝试这个小例子: #include #include namespace fs = std::experimental::fil
javascript - 服务器端 Google Analytics 实验
我想知道为什么我在服务器端运行实验时必须包含 JavaScript cxApi。此外，我可以通过 PHP 发送选定的实验和变体吗？或者可能通过在没有外部资源(如 cxApi)的情况下注入(inject
ios - 如何查询用户看到的所有 Firebase AB 实验？
我正在开发一个使用 Firebase iOS SDK 的 iOS 应用，我正在尝试弄清楚如何访问用户已看到的所有 Firebase AB 实验以及用户参与的实验变体。我查看了文档以及 Firebas
python 实验 gc 和 memory_profiler
我用 python 2.7.7 运行了以下命令: import gc import memory_profiler print memory_profiler.memory_usage()[0] x
javascript - 做了一些 javascript 实验，需要你的帮助来理解意想不到的结果
我在浏览器控制台中做了一个 JavaScript 实验 - 首先我创建了一个新对象 foo 如下 var foo = { bar: function() { return this.baz
algorithm - Viola Jones 实验(训练集)
据说“4916 个正面训练示例经过手工挑选对齐、归一化并缩放到 24x24 的基本分辨率。通过从 9500 张不包含人脸的图像中随机挑选子窗口来选择 10,000 个负面示例。”在论文“Paul Vi
c - 实验 : Object Oriented C?
这个问题在这里已经有了答案: 关闭 12 年前。 Possible Duplicate: Can you write object oriented code in C? 嗨! 只是为了好玩，这两天
30、JVM 调优实战 - 实验：模拟频繁Young GC的场景
1. 程序的JVM参数示范已知，平时系统运行创建的对象，除非是那种大对象，否则通常来说都是优先分配在新生代中的Eden区域的。而且新生代还有另外两块Survivor区域，默认Eden区域占据新
git - 如何在 DAGsHub 上创建新的 Git 实验
在上创建新实验DAGsHub 使用Git，".._metrics.csv"的格式应该是什么和 ".._params.yml"文件？不幸的是，我在任何地方都找不到引用。最佳答案特尔；博士: 对于

首页

博学

6Ren·AI

商城

Matlab CUDA基础实验

代码: