- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我最近开始将 Mathematica 的 CUDALink 与 GT430 结合使用,并且正在使用 CUDADot 将 150000x1038 矩阵 (encs) 乘以 1038x1 矩阵(探针)。 encs 和 probe 都注册到内存管理器:
mmEncs = CUDAMemoryLoad[encs];
mmProbe = CUDAMemoryLoad[probe];
我认为这些的点积会使 GT430 达到最大值,因此我使用以下方法进行了测试:
For[i = 0, i < 10, i++,
CUDADot[mmEncs, mmProbe];
]
在它运行时,我使用 MSI 的“Afterburner”实用程序来监控 GPU 使用情况。以下屏幕截图显示了结果:
每个 CUDADot 操作都有一个明显的峰值,总的来说,我想说这张图片表明我使用的 GPU 容量不到 1/4。两个问题:
问题 1:为什么峰值最大为 50%?看起来很低。
问题 2:为什么峰值之间有如此显着的不活动期?
提前感谢您的任何提示!我不知道 w.r.t. Q1 但也许 Q2 是因为主机和设备之间的意外内存传输?
自原始发布后的附加信息:CUDAInformation[] 报告“Core Count -> 64”,但 NVIDIA Control Panel 报告“CUDA Cores: 96”。如果 CUDALink 在错误假设其具有 64 个内核的情况下运行,是否有可能未充分利用 GT430?
最佳答案
我将通过指出我不知道“MSI Afterburner”真正测量的是什么,或者它以什么频率对它测量的数量进行采样来作为这个答案的序言,我相信你也不知道。这意味着我们不知道屏幕截图中 x 轴或 y 轴的单位是什么。这使得几乎不可能对性能进行任何量化。
1.为什么峰值最大为 50%?看起来很低。
如果您不知道它真正测量的是什么,我不相信您可以说它“看起来很低”。例如,如果它测量指令吞吐量,则可能是 Mathematica 点内核在您的设备上限制了内存带宽。这意味着代码的吞吐量瓶颈将是内存带宽,而不是 SM 指令吞吐量。如果要绘制内存吞吐量,您会看到 100%。我希望 gemv 操作受内存带宽限制,所以这个结果可能并不令人惊讶。
2.为什么峰值之间有如此重要的不活动期?
CUDA API 具有设备和主机端延迟。在 WDDM 平台(因此 Windows Vist、7、8 以及从它们派生的任何服务器版本)上,此主机端延迟相当高,CUDA 驱动程序执行批处理操作以帮助分摊延迟。这种批处理会导致 GPU 操作出现“间隙”或“暂停”。我想这就是你在这里看到的。 NVIDIA 在 Windows 平台上为 Telsa 卡提供专用计算驱动程序 (TCC) 以克服这些限制。
评估此操作性能的更好方法是自己对循环计时,计算每次调用的平均时间,计算操作计数(点积具有已知的下限,您可以从矩阵和向量),并计算一个 FLOP/s 值。您可以将其与 GPU 的规范进行比较,以了解它的性能好坏。
关于cuda - 使用 Mathematica CUDADot 时提高 GPU 的利用率?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14676243/
我记得 WRI 的某个人在 official newsgroup 中说出于兼容性目的,Mathematica 7 仍然有一个来自 Mathematica 5 的老式 Mathematica 帮助浏览器
除非巫师先生在度假,否则很难击败这种似乎具有无所不在和无所不知的现象。我们如何使用 Mathematica 和 StackOverflow API 超越他? 最佳答案 这是 Sjoerd 解决方案的一
您好,我无法理解以下函数的输出。 ListPointPlot3D[Table[Sin[x^2 + y], {x, 0, 3, 0.15}, {y, 0, 3
我在图形中显示了一组点: alt text http://img69.imageshack.us/img69/874/plc1k1lrqynuyshgrdegvfy.jpg 我想知道是否有任何命令可以
让 S是具有唯一元素的向量,并且 s它的一个子集,也有独特的元素;例如,S={1,2,3,4,5,6}和 s={1,3,4,6} .现在给出另一个向量 c={7,8,9,7} ,如何创建矢量 C=[7
我想知道如果给定多个替换规则,mma 如何确定在发生碰撞时首先应用哪个规则。一个例子是: x^3 + x^2*s + x^3*s^2 + s x /. {x -> 0, x^_?OddQ -> 2}
在mathematica 中(我使用的是 mma 5.0(猜猜很老)),如果我将以下内容作为一行输入: Needs["Graphics`Master`"]; Animate[Plot[Sin[n x]
如果我有一个字母表,假设 sigma = {1,2,3,4,a,b,c,d,e,f,g} 并且想要生成所有长度为 n 的单词,有没有办法做到这一点? 我可以做 Flatten[Outer[Functi
生成参数列表的素数列表的最简单函数是什么?想出这样的函数并不难,比如: foo[n_] := Block[{A = {}, p = 2}, While[p All] 关于wol
在此示例中,将函数定义为“functionB”时,这是一个奇怪的结果。有人可以解释吗?我想绘制functionB[x]和functionB[Sqrt[x]],它们必须不同,但是此代码显示functio
如何在 Mathematica 中对列表进行数值微分而不先将其拟合为数学表达式(即使用 FindFit )? 具体来说,我想在列表中找到最大斜率的点。 我已经考虑使用 Differences并找到最大
我正在寻找 Mathematica 中原子对象的完整列表(其中 AtomQ 产生 True)。 我知道 Symbol String Integer Real Rational Complex Spar
最近发现了一些old post在 MathGroup 上使用未记录的命令行选项 -batchinput和 -batchoutput显示: If test.mma contains the follo
Mathematica 似乎缺少此功能,或者无论如何我都找不到它。 Series function 可以对多个变量进行连续扩展,但它似乎无法进行完整的多元扩展。 有谁知道如何做到这一点? 谢谢 最佳答
我有兴趣运行相同的函数,该函数以并行方式在多核上使用不同的参数值进行一些蒙特卡罗评估。我还想确保整个函数在同一个内核上运行,而函数内的计算不会跨内核分布。例如,假设我有一个函数(故意简化) f[a_,
我怎样才能从 Range[96] 中不重复地获得 48 个随机对的两个不同元素?即 96 个元素只使用一次。 当我尝试将元组/子集与 Select 结合使用时,我觉得必须有一种更直接的方法来实现这一点
我正在评估 Wolfram Mathematica 8 的大学类(class)项目。 我很难定义目标编程模型。 首先是因为我在数学方面真的很匮乏 :) 其次,因为我在 official documen
我开发了一些代码来从 LogNormalDistribution 和 StableDistribution 的乘积生成随机变量: LNStableRV[{\[Alpha]_, \[Beta]_, \[
我有一个想要优化的字符串验证函数。该字符串的长度为 2n,由 0 和 1 组成,例如 str="100001"。我想测试一下: 1) 字符串中奇数索引位置的 1 的数量(必须不少于 1)是否等于偶数索
请考虑: Function[subID, pointSO[subID] = RandomInteger[{1, 4}, {5, 2}]] /@ {"subA", "subB"}; M
我是一名优秀的程序员,十分优秀!