concurrency - 为什么我无法与 GTX 480 和 CUDA 5 重叠数据传输和计算？-6ren

concurrency - 为什么我无法与 GTX 480 和 CUDA 5 重叠数据传输和计算？

转载作者：行者123 更新时间：2023-12-04 16:11:23

27

4

我试图用 memcpyasync 重叠内核执行，但它不起作用。我遵循编程指南中的所有建议，使用固定内存、不同的流等。我看到内核执行确实重叠，但它没有与内存传输重叠。我知道我的卡只有一个复制引擎和一个执行引擎，但执行和传输应该重叠，对吗？

似乎“复制引擎”和“执行引擎”总是强制执行我调用函数的顺序。工作包括执行 [HtoD x2、Kernel、DtoH] 的 4 个流。如果我在每个流上发出 HtoDx2,Kernel,DtoH 系列，我会在分析器中看到像 stream2 HtoD 第一个操作在第一个 DtoH 操作结束之前不会开始。如果我首先在每个流上发布 HtoD，然后是第二个 HtoD，然后是内核，然后是 DtoH(广度)，我看不到重叠，并且发布顺序也由 GPU 强制执行。

我已经尝试过 CUDA SDK 中给出的 simpleStreams 示例，我也看到了相同的行为。

我附上了一些屏幕截图，显示了 Visual Profiler 和 Nsight for VS2008 中的问题。

附:我没有设置 CUDA_LAUNCH_BLOCKING 环境

简单流可视化分析器
Simple Streams Visual Profiler

MyApp Nsight 时间线广度优先
MyApp Nsight timeline breadth first

MyApp Nsight 时间线深度优先
MyApp Nsight timeline depth first

编辑 :

放置额外的 x4 内核(总共 2HtoD，5 个内核，每个流 1DtoH)-->
如果我在有和没有 --concurrent-kernels-off 的情况下运行 nvprof，耗时是相同的。如果我设置环境 CUDA_LAUNCH_BLOCKING=1 那么我看到性能提升(从命令行)7.5%!

系统规范:

Windows 7

第一个 PCI-E 插槽中的 NVIDIA 6800 VGA

第二个 PCI-E 插槽中的 GTX480

NVIDIA 驱动程序:306.94

Visual Studio 2008

CUDA v5.0

可视化分析器 5.0

Nsight 3.0

最佳答案

正如我在评论中所说，CUDA 驱动程序确实存在一个 BUG，它使流式传输无法与我的设置一起使用。我已经测试了 1.1 功能卡 (8800 GTS) 和 3.5 功能卡 (GTX Titan) 并且两张卡都可以正常工作。某些 Fermi 卡似乎有问题(我的 GTX 480 不工作)。

关于concurrency - 为什么我无法与 GTX 480 和 CUDA 5 重叠数据传输和计算？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14456236/

27

4

0

文章推荐： node-gyp - 基于构建配置的 GYP 变量

文章推荐： svn - 您建议我的网站使用什么版本控制系统？

文章推荐： sql - .bat 文件可以执行 sql 查询并返回值吗？

文章推荐： android-activity - 在 Activity 图中正确使用信号

SQL 数据传输
我需要将数据从一个表传输到另一台已截断的服务器中的同一个表。最简单的方法是什么？最佳答案设置 linked servers然后在目标数据库上使用以下内容: INSERT INTO existing
mysql - 数据传输-mysql和sql
我尝试从 mysql 服务器获取数据到 ms sql 服务器。我已经在本地主机(使用 ODBC 连接器)中完成了这个过程。但是现在这些服务器作为在线数据库托管。谁能告诉我这样做的方法吗？我想我不能
MySQL 数据传输/更新到另一个数据库
我有一个论坛在这里或http://neue.st/index.php 我想将数据从该论坛转移到不同目录中的新论坛http://neue.st/forums 我也只想选择要传输的数据，例如用户、帖子、主
java - 如何设置字节中的特定位以进行 BLE 数据传输？
我正在 Android 操作系统上开发 BLE 应用程序。我必须通过我的应用程序在 BLE 硬件上写入数据。我对必须发送的传输数据的类型感到困惑。下面的图像显示了我必须发送的字节数据。对于每个字节，它
erlang - 使用它进行 JSON 数据传输
我正在尝试将 RabbitMQ 用于分布式系统，其工作原理如下: 生产者将 JSON 格式的订单 ID 列表放入队列多个消费者从该队列中取出，使用该订单 ID 执行业务逻辑，并将结果(JSON 格式
c++ - ComputeLibrary CLTensor 数据传输
我正在将 ARM ComputeLibrary 集成到一个项目中。这不是我所熟悉的语义的 API，但我正在研究文档和示例。目前，我正在尝试将 std::vector 的内容复制到 CLTensor
ios - L2CAP channel 数据传输
我正在使用面向连接的 channel 开发 BLE 应用程序。我使用 nordic semiconductor nrf52 作为外围设备，iPhone 6 作为中央管理器。我使用了蓝牙 SIG 提供
redis - logstash - influxdb 数据传输
我有一个 redis 数据库、logstash 和两个 elasticsearch 和一个 influxdb。我正在将 key 从 redis 传输到 elasticsearch，它工作正常并且想测试
elasticsearch - Elasticsearch分片重定位查询-是分片重定位(数据传输)过程中涉及的主节点
例如，我们在master1上运行一个主节点在server2，server3上运行的两个数据节点我们说分片重定位发生在server2到server3之间现在要复制数据文件夹，elasticsear
php - AJAX 和 PHP 数据传输
基本上，我想做的是创建一个方法，可以采用任何数据类型，并将其转换为 php 识别的数据或 JSON。假设我想传递一个数组、一个二维数组或只是一些基本字符串。我会调用这个函数，传入参数并将其发送到 ph
java - UI 层和业务层之间的 JSF 数据传输
我们在 UI 中使用 JSF，在业务层中使用 Spring，在持久层中使用 Hibernate。现在我的问题是如何将数据从 JSF UI 传递到 Spring 业务层。我可以直接在支持 bean 中使
java - 数据传输 JAVA ->C# - 澄清？
我正在构建一个 android 应用程序(使用 java 1.6) - 这是实际的客户端它向 Windows 计算机发送和接收数据，该计算机托管使用 networkStream 和 socket T
java - Web 服务或 HTTP 数据传输
我将编写一个对用户输入使用react并将用户输入数据发送到服务器的应用程序。如果没有互联网连接，应用程序将批量数据并尽快发送。加密并不重要，因为只是发送了一堆关键信息，如果没有相应的真实数据，这些信息
javascript - Tizen 原生到 javascript 数据传输
我知道 Javascriptbridge 可以将数据从 js 发送到 tizen。 Is there any way to pass data from native to javascript 最佳
java - Oracle 到 Postgres 数据传输
几年前，我编写了一个小实用程序，用于将数据从 Oracle 数据库移动到 Postgres 数据库。我使用 Java 和 JDBC 来完成此任务，因为我希望 Java 处理准备好的语句中使用的数据的数
javascript - Facebook 实时聊天背后的概念(数据传输)是什么？
我最近加入了 Facebook(我知道我迟到了)，昨晚我带着一个奇迹醒来。看起来像实时聊天模块大约每秒“寻找”新的应答消息。在我看来，这有点太快了。我不知道他们是如何设法不得到他们的服务器处于事件状态
java - 需要更简单的 Java/SQL 数据传输
因此，我正在使用 jdbc 与 MySQL 数据库通信。对于许多表和许多查询/ View ，我创建了一个类，它封装了表的一行或查询/表结果。对 DB 的访问返回此类的一个对象(当我确切知道只有一个匹配
python - 如何通过 .py 运行 blob 数据传输
我尝试创建一个在我的虚拟机中运行的程序，以便我可以将数据从目录传输到我的 azure blob 存储帐户。每当我在程序外部(在命令行上)运行该命令时，它都会起作用，但是，如果我运行包含运行该命令的子进
javascript - 两个 node.js 服务器之间的文件/数据传输
我正在尝试建立一个小型系统，让一台服务器(也称为传感器)在发现另一台服务器(也称为服务器)可用时将数据文件传输到另一台服务器(也称为服务器)(都运行 node.js 应用程序)。理想情况下，服务器应
android - 对话 fragment 到 Activity 数据传输
我有一个带有两个按钮和两个文本字段的 DialogFragment。我只希望当我在两个文本字段中输入数据并按下“确定”按钮时，它可以匹配两个字段的数据并将结果保存到 String。 Toast ms

首页

博学

6Ren·AI

商城

concurrency - 为什么我无法与 GTX 480 和 CUDA 5 重叠数据传输和计算？