cuda - 使用 cudaHostAlloc 分配的固定内存在哪里？-6ren

cuda - 使用 cudaHostAlloc 分配的固定内存在哪里？

转载作者：行者123 更新时间：2023-12-05 01:15:21

24

4

我在看 Page-Locked Host Memory在 Cuda Programming Guide并想知道在使用函数 cudaHostAlloc 创建时分配的固定内存在哪里?它在内核地址空间中吗？还是分配在进程地址空间中？

最佳答案

CUDA(以及其他具有 DMA 功能的外部硬件，如 PCI-express 卡)的“页面锁定主机内存”分配在主机的物理内存中。分配被标记为不可交换(不可分页)和不可移动(锁定、固定)。这类似于 mlock syscall的 Action “将调用进程的部分或全部虚拟地址空间锁定到 RAM 中，防止该内存被分页到交换区。”

这个分配可以被内核虚拟地址空间访问(因为内核拥有物理内存的完整 View )并且这个分配也被添加到用户进程虚拟地址空间以允许进程访问它。

当您执行普通 malloc 时，实际的物理内存分配可能(并将)推迟到对页面的第一次(写)访问。使用锁定/锁定内存，所有物理页面都在锁定或锁定调用中分配(如 mmap 中的 MAP_POPULATE :“为映射填充(预错)页表”)，并且页面的物理地址不会改变(不交换，不移动，没有压缩...)。

CUDA 文档:
http://docs.nvidia.com/cuda/cuda-runtime-api/group__CUDART__MEMORY.html#group__CUDART__MEMORY_1gb65da58f444e7230d3322b6126bb4902

__host__ cudaError_t cudaHostAlloc ( void** pHost, size_t size, unsigned int flags )

Allocates page-locked memory on the host. ...

Allocates size bytes of host memory that is page-locked and accessible to the device. The driver tracks the virtual memory ranges allocated with this function and automatically accelerates calls to functions such as cudaMemcpy(). Since the memory can be accessed directly by the device, it can be read or written with much higher bandwidth than pageable memory obtained with functions such as malloc(). Allocating excessive amounts of pinned memory may degrade system performance, since it reduces the amount of memory available to the system for paging. As a result, this function is best used sparingly to allocate staging areas for data exchange between host and device.

...

Memory allocated by this function must be freed with cudaFreeHost().

固定和未固定内存比较: https://www.cs.virginia.edu/~mwb7w/cuda_support/pinned_tradeoff.html “在固定和非固定内存之间选择”

Pinned memory is memory allocated using the cudaMallocHost function, which prevents the memory from being swapped out and provides improved transfer speeds. Non-pinned memory is memory allocated using the malloc function. As described in Memory Management Overhead and Memory Transfer Overhead, pinned memory is much more expensive to allocate and deallocate but provides higher transfer throughput for large memory transfers.

CUDA 论坛发布了来自 txbob 版主的建议: https://devtalk.nvidia.com/default/topic/899020/does-cudamemcpyasync-require-pinned-memory-/ “cudaMemcpyAsync 是否需要固定内存？”

If you want truly asynchronous behavior (e.g. overlap of copy and compute) then the memory must be pinned. If it is not pinned, there won't be any runtime errors, but the copy will not be asynchronous - it will be performed like an ordinary cudaMemcpy.

The usable size may vary by system and OS. Pinning 4GB of memory on a 64GB system on Linux should not have a significant effect on CPU performance, after the pinning operation is complete. Attempting to pin 60GB on the other hand might cause significant system responsiveness issues.

关于cuda - 使用 cudaHostAlloc 分配的固定内存在哪里？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49480334/

24

4

0

文章推荐： .net - 为调用的每个 wcf 服务方法触发一致的事件？

文章推荐： wpf - IDataErrorInfo 与 ValidationRule 与异常

文章推荐： Javascript 仅在 chrome 上打开 javascript 控制台时有效

mysql - 连接的子查询(存在/存在)
SELECT *, `o_cheque_request.member_id`, `o_cheque_request.wallet_id` FROM `o_cheque_request`, `o_mem
SQL查找是否"存在"，别再count了！
根据某一条件从数据库表中查询『有』与『没有』，只有两种状态，那为什么在写SQL的时候，还要**SELECT count(*)**呢？无论是刚入道的程序员新星，还是精湛沙场多年的程序员老白，都是一如
c# - 存在、读写只需一步
我试图找出一个文件是否存在，如果存在，验证css样式是否已经存在，如果不存在，将它们写在文件末尾... 我已经完成了这一切，但分 3 个步骤: 该文件是否存在？ FileInfo fi= new Fi
android - 如何检测iOS用户或Android用户是否“存在”？
我们正在开发即时消息传递应用程序，并且需要在用户的化身上用绿点显示用户 friend 的“状态”。 “状态”远远超出了“my_app_is_opened_and_on_focus”，这意味着(我猜可能
SQL 查询不存在，存在
模式 Movie(title, year, director, budget, earnings) Actor(stagename, realname, birthyear) ActedIn(stag
MySQL 触发器语法错误 IF 存在
我有一个正在尝试创建的 MySQL 触发器，但无法获得正确的语法。触发器应该遍历一组关键字并将其与插入数据库的新帖子的标题进行匹配。如果找到匹配项，它应该将新帖子分配给该存储桶并更新存储桶的关键字集
MYSQL 选择子查询 IF 存在
我有 3 个表......用户、更新和碰撞。我想向发出 api 请求的用户返回最新订单的 feed 更新，并提供显示 feed 中每个状态所需的所有数据。我还需要包括更新是否已被发出 api 请求的
ios - UIViewController 存在
我正在尝试呈现一个带有 UIView 的 UIViewController。以下是我在 viewDidLoad 方法中尝试的代码。 //create the view controller UIVi
mysql - 如何在一个查询中进行多个计数/存在？
我正在努力弄清楚如何在不对 mysql 进行两次调用的情况下从一个表中检查两件事。我有一个 Members 表。我想测试MemberID 列中是否存在某个值，以及PhoneNumber 列中是否存在
vba - 循环没有 Do 错误但 Do 存在
以下代码给出了一个没有 Do Compile 错误的循环: Loop Sheets("Snap").Rows(1).AutoFilter Field:=5, Criteria1:=List
dns - 域名通过 "dig"存在
是否可以通过检查“dig”的输出来检查域名的存在？在绑定(bind)源中，我发现了这些常量: 0 DNS_R_NOEROR 1 DNS_R_FORMERR 2 DNS_R_SERVFAIL 3 DN
php - Controller 存在，但找不到页面
Controller 有问题我在 Windows 上使用服务器，一切正常，但在互联网上我试图访问页面 social_apartament/beauty_life/并且找不到该页面，代码错误 404这
d - 存在 `static if`时如何生成文档
/** This is struct S. */ struct S(T) { static if(isFloatingPoint!T) { /// This version works
clojure - 类型删除如何帮助 Clojure 存在？
JVM 类型删除如何帮助 Clojure？没有它，Clojure 还能存在吗？如果 JVM 有具体化的类型会发生什么？也就是说，Clojure 将如何改变？最佳答案 Clojure 根本不会有太大变
c - 为什么 system() 存在？
许多论文等提到对“system()”的调用是不安全且不可移植的。我不反对他们的论点。不过，我注意到许多 Unix 实用程序都有一个等效的 C 库。如果没有，源可用于各种这些工具。虽然许多论文和此类
javascript - js如何让一个变量值根据用户登录 Node 存在
在我的 Node js 应用程序中，我有一个用户登录 api。上面我在服务器端代码中创建了一个名为 customerid 的变量。现在，当用户身份验证成功时。我将他的 userid 值存储在我的 cu
azure - 存在 DNS 详细信息时重用资源管理器模板
我有一个工作资源管理器组，由 Ubuntu 14.04 虚拟机、网络接口(interface)、公共(public) IP 地址和存储帐户组成。我已经从这组资源中创建了一个模板。当我尝试部署这组资源
javascript - 存在 javascript 循环引用问题
我有一个函数createminor4(arr，锦标赛)它基本上将arr分成4组，每组8人，然后将它们一次交换到tourney 1组。从那里它插入四个{}，其中有 4 个带有空数组的键。我已经在 Ch
r - 存在 2 个图例时如何更改图例点的大小
我有一个图表，其中有两个图例。我需要更改其中一个图例的点的大小。我需要更改图例中“市场类型”的项目符号大小。我使用示例 here但不适用于我的图表。我的代码如下: k <- ggplot(subs
javascript - 存在 jQuery 字符串比较问题
我有 fiddle here展示我正在尝试做的事情。我有一个动态生成的表，因此列可以按用户选择的任何顺序显示。因此，我尝试获取两个特定 header 的索引，以便可以将 CSS 类添加到这两列以供稍

首页

博学

6Ren·AI

商城

cuda - 使用 cudaHostAlloc 分配的固定内存在哪里？