gpt4 book ai didi

c++ - cudamallocmanaged 是否足够聪明,不会复制不需要的数据?

转载 作者:行者123 更新时间:2023-11-28 06:22:14 25 4
gpt4 key购买 nike

我对 cudamallocmanaged 的​​疑问是,如果我 malloc N 个数字,在 GPU 完成对这些数字的操作(比方说扫描操作)后,我只需要数组中的最后一个数字,并且只访问主机中的这个数字. cudamallocmanaged 只会复制这个数字吗?

我做了一个测试,我的答案是否定的。所以我认为在这种情况下 cudamalloc/free/copy 比 cudamallocmanaged 更快。如果我错了,请纠正我。

那么接下来的问题是:知道何时以及来回复制多少是如何工作的?

最佳答案

您问题的答案通常是肯定的,以页面(通常是 4K)为基础。对于 CPU->GPU 拷贝,驱动程序通过跟踪脏位来延迟复制 CPU 页面。内核启动后,托管内存被标记为非驻留内存,因此 CPU 访问将出错。然后在 CPU/GPU 同步操作之后,它保持非驻留状态,驱动程序通过从设备内存中复制访问的页面来解决页面错误。

这是基于我去年某个时间所做的一项研究,因此此后可能有所变化。鉴于托管内存的语义,NVIDIA 有许多不同的实现选项,您可以预期它们会随着 NVIDIA 优化其代码而改变。

我以 500MB/s 的速度测量了托管内存的 block GPU->CPU 拷贝,比固定的 memcpy 慢 25 倍,因此随着 NVIDIA 弄清楚如何优化这些代码路径,预计会有变化。例如,如果他们在 GPU 端进行脏位跟踪,他们可以推测性地将 GPU 写入的页面复制回 CPU 内存。这将提供更高的带宽,但可能会导致从未访问过的多余数据拷贝。

关于c++ - cudamallocmanaged 是否足够聪明,不会复制不需要的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29134132/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com