memory - 如何缓解 OpenCL/CUDA 中的主机 + 设备内存传输瓶颈-6ren

memory - 如何缓解 OpenCL/CUDA 中的主机 + 设备内存传输瓶颈

转载作者：行者123 更新时间：2023-12-02 04:21:33

29

4

如果我的算法受到主机到设备以及设备到主机内存传输的瓶颈，唯一的解决方案是使用不同的或修改的算法吗？

最佳答案

您可以尝试采取以下几项措施来缓解 PCIe 瓶颈:

异步传输 - 允许重叠计算和批量传输
映射内存 - 允许内核在执行期间将数据传输至 GPU 或从 GPU 传输数据

请注意，这些技术都不会提高传输速度，它们只是减少 GPU 等待数据到达的时间。

使用cudaMemcpyAsync API 函数，您可以启动传输、启动一个或多个不依赖传输结果的内核、同步主机和设备，然后启动等待传输完成的内核。如果您可以构建算法，以便在传输过程中进行高效工作，那么异步副本是一个很好的解决方案。

通过 cudaHostAlloc API 函数，您可以分配可直接从 GPU 读写的主机内存。速度更快的原因是需要主机数据的 block 只需要等待一小部分数据的传输。相反，通常的方法是让所有 block 等待整个传输完成。映射内存本质上将大型单片传输分解为一堆或更小的复制操作，因此减少了延迟。

您可以在 CUDA Programming Guide 的第 3.2.6-3.2.7 节中阅读有关这些主题的更多信息。和 CUDA Best Practices Guide 的第 3.1 节。 OpenCL Best Practices Guide第3章解释如何在 OpenCL 中使用这些功能。

关于memory - 如何缓解 OpenCL/CUDA 中的主机 + 设备内存传输瓶颈，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/3972260/

29

4

0

文章推荐： php - 在 Yii 中不在对象上下文中时使用 $this

文章推荐： ios - 在 React Native 中动态需要图像

文章推荐： wpf - 如何在 WPF 中为 Segoe MDL2 图标着色？

文章推荐： android - 更新 studio 3.4 后找不到参数的 leftShift() 方法

MySQL 瓶颈
我有一个具有以下结构的表: ID, SourceID, EventId, Starttime, Stoptime 所有 ID 列都是 char(36)，时间是日期。问题是查询表真的很慢。我有 7 百
.net - WCF服务路由，瓶颈？
我们的应用程序服务器架构经过设置，以便每个服务调用都经过自定义构建的 WCF 服务路由器 - 这是一个使用请求消息 header 中嵌入的信息将传入请求分发到适当服务的服务。我们在使用此 WCF 服
Java:ArrayList 瓶颈
在分析一个计算数千个元素的层次聚类的 Java 应用程序时，我意识到 ArrayList.get占用执行集群化部分所需 CPU 的一半左右。该算法搜索两个更相似的元素(因此它是 O(n*(n+1)/
arrays - MatLab 瓶颈
我正在处理大数组(~6x40 百万)，我的代码显示出很大的瓶颈。我在 MatLab 编程经验丰富，但对内部过程(如内存等......)知之甚少。我的代码如下(只是要点，当然所有变量都初始化了，特别是
c# - TcpClient 瓶颈
我正在尝试创建一个独立的类来维护与服务器的 Tcp 连接。我正在使用以下类变量: TcpClient tcpClient; NetworkStream networkStream; BinaryRe
c# - 多线程访问内存中的大型字典对象 - 瓶颈？
快速多线程问题... 我在内存中有一个包含大约 20,000 个项目的字典对象。如果我有多个线程尝试读取此对象，您会认为这会造成瓶颈吗？净 3.5 。字典对象将是只读的字典是只读的，所以我不关心读
javascript - Node 代理服务器，瓶颈？
我们有 2 台服务器: 文件 API 核心 API 不同服务器上的文件 API 和不同的核心 API。我们希望通过相同的域和端口进行访问，我们使用 nodeJS 作为后端平台。所以我们想出了一个代理
azure - 并行运行 Azcopy - 瓶颈？
我想并行下载/上传文件到 Azure。默认情况下，由于日志文件上的锁定，AzCopy 不允许在同一副本上多次运行。我通过将每个实例指向不同的日志文件(使用/Z )在同一台计算机上运行多个 Azcopy
performance - iTextSharp PDFWriter 瓶颈
因此，我将获取 10000 个 2 页 pdf 文件，并使用 iTextSharp 将它们合并为一个。这是我正在做的一些松散代码: Document document = new Document(
java - 使用多线程写入多个文件时如何解决 I/O 瓶颈
我目前有一个多线程程序，可以抓取网站并将其文本写入文件。 CPU 方面，我可以同时运行大量线程，但 I/O 很快就会成为瓶颈。我想我可以让每个线程写入数组阻塞队列，但我知道我将生成超过可用 32GB
c# - 了解树搜索中的 PLINQ 瓶颈
我在使用 PLINQ 时遇到了一些我似乎无法解释的奇怪结果。我一直在尝试并行化 Alpha Beta 树搜索以加快搜索过程，但它实际上减慢了搜索速度。我希望当我提高并行度时，我会每秒线性增加节点...
Python 瓶颈 argpartsort 性能
在对给定数组中的前 n = 1000 个元素进行排序时，为什么 bottleneck.argpartsort 具有最佳性能是否有原因(考虑到我没有搞砸某些事情)？我创建了以下脚本: d = nump
c++ - 如何剖析 OpenMP 瓶颈
我有一个已由 OpenMP 并行化的循环，但由于任务的性质，有 4 个 critical 子句。分析加速并找出哪些关键子句(或可能非关键(!))在循环内占用最多时间的最佳方法是什么？我使用 Ubu
ios - 如何找到 UIImage 瓶颈
我有一个使用 UIImage 对象的应用程序。到目前为止，我一直在使用像这样初始化的图像对象: UIImage *image = [UIImage imageNamed:imageName]; 在我的
mysql - 如何衡量 mySQL 瓶颈？
对于以下问题场景，我们应该查看哪些 mySQL 服务器变量以及哪些阈值很重要: CPU 限制磁盘读取限制磁盘写入绑定(bind) 对于每种情况，除了获得更好的硬件或将数据库扩展到多台服务器之外，建
vba - 识别 VBA UDF 瓶颈
在我的工作表中，我有四个不同的类别。对于每个类别，有 3~5种不同的价格。还有其他属性。结果，每个类别都重复了很多次，总共有 30,000 行。工作表的第一行包含所有列名。每个类别跨越连续的行。因此，
r - createDataFrame 中的 SparkR 瓶颈？
我是 Spark、SparkR 以及所有 HDFS 相关技术的新手。我最近安装了 Spark 1.5.0 并使用 SparkR 运行一些简单的代码: Sys.setenv(SPARK_HOME="/p
solrnet - solr.Add(doc) 瓶颈
Win 7/SolrNet 0.4.0/C# winforms .net 4.0 客户端。我正在使用 Solrnet 和一个 winforms 线程应用程序将多个位图和一些数学描述符写入 Solr
java - Android - 位置管理器 requestLocationUpdates 瓶颈
我有一个 Android 后台服务，它会不时报告位置。当我通过 wifi 在本地测试时它工作得很好，但是当在 3G 连接中测试时(有时在 Edge 上)我发现应用程序显然进入了瓶颈并且不执行 onLo
javascript - angular.js $apply 瓶颈
我正在使用实时数据在网页上使用 SVG 绘制一些线条。为了管理数据，我使用 Angular.js 并管理可视化，我使用 D3.js。我设置了一个 Angular Controller 来保存数据(行

首页

博学

6Ren·AI

商城

memory - 如何缓解 OpenCL/CUDA 中的主机 + 设备内存传输瓶颈