python - pycuda.gpuarray.dot() 第一次调用时非常慢-6ren

python - pycuda.gpuarray.dot() 第一次调用时非常慢

转载作者：行者123 更新时间：2023-12-01 05:40:52

26

4

我在 pycuda 中有一个有效的共轭梯度方法实现，我想对其进行优化。它使用自写的矩阵向量乘法和 pycuda 原生的 gpuarray.dot 和 gpuarray.mul_add 函数

使用 kernprof.py/line_profiler 分析程序返回了收敛花费在一次 gpuarray.dot() 调用上的大部分时间 (>60%)。 (约0.2秒)接下来的所有 gpuarray.dot() 调用大约需要 7 微秒。所有调用都具有相同类型的输入向量(大小:400 个 double )

有什么理由吗？我的意思是，最终它只是一个常数，但它使分析变得困难。我想在 pycuda 邮件列表上问这个问题。但是我无法使用@gmail.com 地址进行订阅。如果有人对奇怪的 .dot() 行为有任何解释，或者我无法订阅该邮件列表，请给我一个提示;)

最佳答案

原因之一是 Pycuda 在上传内核之前对其进行编译。据我记得认为这只应该在第一次执行时发生。

一种解决方案可能是通过执行一次内核来“预热”内核，然后启动分析过程。

关于python - pycuda.gpuarray.dot() 第一次调用时非常慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17574547/

26

4

0

文章推荐： java - Android singleTask + AsyncTask 和意外的变量值变化

文章推荐： java - JSF 2 - 从二进制数据生成图像

文章推荐： python - 我可以填充 onChange 事件上的字段吗？

MATLAB gpuArray；计算能力不足
我在 2 岁的 Macbook Pro 上的 Ubuntu 12.04 上运行 MATLAB R2011b。我想利用 MATLAB 的 GPU 功能。但是，当我尝试时，我发现我的 GPU 似乎不够强大
matlab - 如何并行乘以多个 gpuArray 矩阵？
给定矩阵 A1,...,An 和 B1,...,Bn 存储为 gpuArray ，我想计算矩阵 Ci=Ai*Bi。所有 Ai 的大小相同，所有 Bi 的大小相同(可能不同)。假设 n 非常大并且矩
python - PyCUDA GPUArray 基于切片的操作
PyCUDA 文档对于我们这些“非大师”类中的示例来说有点简单，但我想知道可用于 gpuarrays 上的数组操作的操作，即。如果我想 gpuarray 这个循环； m=np.random.rando
matlab - Cuda/Matlab 中的 Gpuarray
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
python - pycuda.gpuarray.dot() 第一次调用时非常慢
我在 pycuda 中有一个有效的共轭梯度方法实现，我想对其进行优化。它使用自写的矩阵向量乘法和 pycuda 原生的 gpuarray.dot 和 gpuarray.mul_add 函数使用 ke
matlab - 为什么复杂的 Matlab gpuArray 占用的内存是它应该占用的内存的两倍？
我注意到大型复杂数组在 GPU 上占用的内存是 CPU 上的两倍。这是一个最小的例子: %-- First Try: Complex Single gpu = gpuDevice(1); m1 =
matlab - 在 matlab 中对 gpuArrays 按列操作的函数
我有一个自定义函数，它接收一个 m x 2 矩阵(2 列)并对其进行运算。这是一个相当复杂的函数，因为它涉及多个矩阵乘法，依次通过一个列向量(在 for 循环中)，并根据另一个列向量的相应值选择要相乘
python - 如何从 gpu 内存地址创建 PyCUDA GPUArray？
我正在使用 PyTorch，并希望在 PyCUDA 的帮助下对张量数据进行一些算术运算。我可以通过 t.data_ptr() 获取 cuda 张量 t 的内存地址。我能否以某种方式使用此地址以及我对大
matlab - 在 Matlab 中的 CUDA 内核启动之间维护 gpuArray 数据
我正在使用 parallel.gpu.CUDAKernel 在 Matlab 2011a 中启动 CUDA 内核。我设计了我的代码，使得同一个 gpuArray 应该由循环内的后续内核启动填充，但每次
matlab - 为什么在 Matlab 中 gpuArray 的 repmat 和 reshape 这么慢？
我当前的任务是使用 gpu 同时训练多个网络。我现在做不到，所以现在我尝试对数组进行一些操作。 a = rand(1000, 1000, 'gpuArray'); tic; for i = 1 : 1
matlab - 为什么在 Matlab 脚本中使用 gpuArray 时 a*b*a 比 (a'*(a*b )')' 花费的时间更长？
下面的代码以两种不同的方式对 gpuArrays a 和 b 执行相同的操作。第一部分计算 (a'*(a*b)')' ，而第二部分计算 a*b*a。然后验证结果是一样的。 %function test

首页

博学

6Ren·AI

商城

python - pycuda.gpuarray.dot() 第一次调用时非常慢