pointers - cuda统一内存: memory transfer behaviour-6ren

pointers - cuda统一内存: memory transfer behaviour

转载作者：行者123 更新时间：2023-12-02 01:22:48

25

4

我正在学习 cuda，但目前还没有访问 cuda 设备并且对一些统一的内存行为感到好奇。据我了解，统一内存功能在需要知道的基础上将数据从主机传输到设备。因此，如果 cpu 调用某些数据 100 次，即在 gpu 上，它仅在第一次尝试时传输数据并清除 gpu 上的内存空间。 (到目前为止我的解释是否正确？)

1 假设这样，是否存在一些行为，如果适合 gpu 的编程结构对于设备内存而言太大，UM 是否会交换一些最近访问的数据结构以腾出空间对于下一个需要完成的计算还是仍然需要手动完成？

2 此外，如果您能澄清与内存传输行为相关的其他内容，我将不胜感激。很明显，数据会在访问实际数据时来回传输，但是访问指针呢？例如，如果我有 2 个相同 UM 指针的数组(指针中的数据当前在 gpu 上，下面的代码是从 cpu 执行的)并且要对第一个数组进行切片，可能要删除一个元素，迭代会跨过放置在新数组中的指针，以便访问数据以进行 cudamem 传输？肯定不是。

最佳答案

As far as i understood, the unified memory functionality, transfers data from host to device on a need to know basis. So if the cpu calls some data 100 times, that is on the gpu, it transfers the data only during the first attempt and clears that memory space on the gpu. (is my interpretation correct so far?)

第一部分是正确的:当 CPU 尝试访问驻留在设备内存中的页面时，它会透明地传输到主内存中。设备内存中的页面发生了什么可能是一个实现细节，但我想它可能不会被清除。毕竟，只有 CPU 写入页面并且设备再次访问它时，才需要刷新其内容。我想最好问问 NVIDIA 的人。

Assuming this, is there some behaviour that, if the programmatic structure meant to fit on the gpu is too large for the device memory, will the UM exchange some recently accessed data structures to make space for the next ones needed to complete to computation or does this still have to be achieved manually?

在 CUDA 8 之前，不，您不能分配(超额订阅)超过设备所能容纳的数量。从 CUDA 8 开始，有可能:页面在设备内存中进出错误(可能使用 LRU 策略，但我不确定是否在任何地方指定)，这允许处理不适合设备的数据集并且需要手动流式传输。

It seems obvious that data would be transferred back on fro upon access of the actual data, but what about accessing the pointer?

它的工作原理完全一样。无论您是取消引用由 cudaMalloc(甚至 malloc)返回的指针，还是取消引用该数据中的某个指针，都没有区别。驱动程序以相同的方式处理它。

关于pointers - cuda统一内存: memory transfer behaviour，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38901138/

25

4

0

文章推荐： java - 使用 IIB 设置输出文件名

文章推荐： java - 如何在Java中访问堆栈内存

文章推荐： function - 如何访问函数内部的全局变量

文章推荐： github - TravisCI/Coverity : Warning - No files were emitted

memory - 在什么情况下我们可以使用Non-shareable device memory，或者Shareable device memory？
在 ARM 中，内存类型指定为: 正常设备强烈有序在Device type里面，好像这个类型也可以区分不可共享的设备内存可共享设备内存不可共享和可共享设备内存有什么区别？我们如何分别使用这
memory - 在什么情况下我们可以使用Non-shareable device memory，或者Shareable device memory？
在 ARM 中，内存类型指定为: 正常设备强烈有序在Device type里面，好像这个类型也可以区分不可共享的设备内存可共享设备内存不可共享和可共享设备内存有什么区别？我们如何分别使用这
memory - spark.python.worker.memory 与 spark.executor.memory 有何关系？
This diagram很清楚不同YARN和Spark内存相关设置之间的关系，除了spark.python.worker.memory。 spark.python.worker.memory 如何适应
memory - GLSL编译错误 “memory exhausted”
我正在尝试使用复杂的if-else决策树来实现GLSL片段着色器。不幸的是，着色器编译器很早就失败，并出现“语法错误-内存耗尽”错误。 GLSL中的代码大小或决策树深度是否有任何限制？有什么建议如何克
memory - 什么是 "tagged memory"？
什么是“标记内存”，它如何帮助减小程序大小？最佳答案您可能指的是 tagged union ，或更具体地说是硬件实现，如 LISP 机器中使用的标记架构。基本上是一种存储具有类型信息的数据的方法。
memory - 戈朗 : trouble with memory
我的内存有问题。我不明白为什么当我的程序长时间运行时 Go 使用越来越多的内存(从不释放它)。第一次分配后，程序使用了将近 9 MB 的内存。然后在 12 小时后，它开始以指数方式使用更多内存，直到
memory - mac上的matlab "memory"函数？
在 Windows 机器上，MATLAB 用户可以使用 memory或 feature memstats命令。但是，这些都不能在机器上工作，失败如下: >> memory??? Error using
memory-management - Linux 内核启动 : how is memory allocation done when DTB and initramfs are initially in memory?
引导 Linux 内核时，可以在 RAM 中加载 initramfs 存档和 DTB 文件，并将这些物理地址指定给内核。例如，使用 U-Boot，您可以执行以下操作: bootz 0x80008000
memory - 既然现代计算机都使用了虚拟内存，为什么还会遇到 "out of memory"问题呢？
我正在学习虚拟内存的概念，但是这个问题让我困惑了一段时间。由于大多数现代计算机都使用虚拟内存，因此当程序正在执行时，操作系统应该在 RAM 和磁盘之间将数据分页进出。但为什么我们仍然遇到“内存不足”的
memory - RuntimeError : CUDA out of memory. 如何设置max_split_size_mb？
我在 Colab Pro+(使用高 RAM 选项)上运行神经网络时发现了这个问题。运行时错误:CUDA 内存不足。尝试分配 8.00 GiB(GPU 0；15.90 GiB 总容量；12.04 Gi
memory - 为什么从 Memory & I\O 获取数据很昂贵？
当我在任何地方阅读基于操作系统的书籍时，考虑到时间限制和开销很高，从内存和 I\O(子系统)获取数据是昂贵的，这就是为什么在某些硬件制造商中提供一些其他方式来访问它们，如ARM7 some ISAs像
memory-management - 优势数据库服务器 : in-memory queries
据我所知，ADS v.10 尝试将查询结果保留在内存中，直到它变得非常大。对于 __output 表和临时表也应该如此。当结果变大时，交换声明。问题是为查询、 worker 等设置了什么内存限制？可
memory - Docker 的 --memory 开关无法按预期工作
序言我正在写一个小演示文稿来列出使用 Docker 时的一些“陷阱”，我也遇到了自己的一个问题。在解释让 Docker 在没有内存限制的情况下运行的危险时，我发现它的行为不像我预期的那样。我使用
memory - Web服务器容量规划: more cores versus more memory
我们有一个 ASP.NET 项目(40 个左右的 Web 表单、50 个表、相当标准的 IO 内容，并尽可能减少)，很快需要部署。系统上大约有 100 个并发用户，但任何时候只有大约 20 个用户在使
memory-leaks - 如何修复Redis "memory leak"
我在 dotcloud 上使用 redis 内存存储，但尽管 key 已过期，但它的 used_memory 再也不会下降。从 redis-cli 使用 flushdb 或 flushall 不会导致
xcode - 使用 Xcode Memory Graph Debugger 时出现 "Memory Graph Debugger: no serialized memory graph received from LeakAgent"错误
我使用的是 Xcode 10.2.1 和 macOS Catalina Developer Beta 2。每当我尝试使用内存图调试器时，我都会收到此错误: Memory Graph Debugger:
memory-leaks - 如何修复 D "memory leaks"
所以我一直在寻找这个问题的解决方案有一段时间了。我编写了一个程序来从两个单独的文本文件中获取数据，对其进行解析，然后输出到另一个文本文件和一个 ARFF 文件以供 Weka 分析。我遇到的问题是我编写
memory - erlang:memory() 与 memsup:get_system_memory_data()
对不起，我对 erlang 文档中的以下描述不太清楚: erlang:memory() -> [{Type, Size}] with Type: "total" means: "The total a
memory - 在以太坊 Solidity 中， "memory"关键字的用途是什么？
在查看示例合约时，有时会在带有“内存”的方法中声明数组，有时则不会。有什么区别？最佳答案如果没有内存关键字，Solidity会尝试在存储中声明变量。首席 Solidity 开发者 chriset
MATLAB 帕福尔 : memory management: shared memory or not?
我不明白Matlab并行计算工具箱中的parfor cicle是如何与内存一起工作的:我读到它在所有worker之间共享内存(然后我认为每个worker(核心)都可以访问感兴趣的内存位置而无需制作本地

首页

博学

6Ren·AI

商城

pointers - cuda统一内存: memory transfer behaviour