cuda - 默认固定内存与零拷贝内存-6ren

cuda - 默认固定内存与零拷贝内存

转载作者：行者123 更新时间：2023-12-03 08:28:43

26

4

在 CUDA 中，与通过 分配的默认内存相比，我们可以使用固定内存更有效地将数据从主机复制到 GPU。 malloc 在主机。然而，有两种类型的固定内存默认固定内存 和 零拷贝固定内存 .

默认固定内存将数据从主机复制到 GPU 的速度是正常传输速度的两倍，因此绝对有优势(前提是我们有足够的主机内存进行页面锁定)

在不同版本的固定内存中，即零拷贝内存 ，我们完全不需要将数据从主机复制到 GPU 的 DRAM。内核直接从主机内存读取数据。

我的问题是:这些固定内存类型中哪一种是更好的编程实践。

最佳答案

我认为这取决于您的应用程序(否则，为什么他们会提供两种方式？)

映射的固定内存(零拷贝)在以下情况下很有用:

GPU 本身没有内存，无论如何都使用 RAM

您只加载一次数据，但需要对其执行大量计算，并且您希望通过它隐藏内存传输延迟。

主机端想要更改/添加更多数据，或读取结果，而内核仍在运行(例如通信)

数据不适合 GPU 内存

请注意，您还可以使用多个流来复制数据并并行运行内核。

固定但未映射的内存更好:

当您多次加载或存储数据时。例如:您有多个后续内核，分步执行工作 - 无需每次都从主机加载数据。

没有那么多计算要执行，加载延迟也不会很好地隐藏

关于cuda - 默认固定内存与零拷贝内存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5209214/

26

4

0

文章推荐： f# - 使用Nunit公开F#测试用例方法以进行单元测试

文章推荐： unity-game-engine - USDZ模型如何导入到Unity中？

文章推荐： python - dicord.py : get_channel() returns None

文章推荐： aws-lambda - 始终需要无服务器框架的阶段参数

两个派生类的 C++ 拷贝
我有一个基类和两个派生类，我需要将一个指向派生类对象的指针复制到另一个类中，就像示例一样。 class Base { public: Base(const Base& other); } cl
具有抽象类指针的对象的 C++ 拷贝
考虑 Container 类，它主要存储 Box 对象的 unique_ptr vector ，并可以对它们执行一些计算。 class Container { private: std::
Python中使用copy模块实现列表(list)拷贝
引用是指保存的值为对象的地址。在 Python 语言中，一个变量保存的值除了基本类型保存的是值外，其它都是引用，因此对于它们的使用就需要小心一些。下面举个例子：问题描述：已知一个列表，求生成一个
C++ 遍历 vector 拷贝
我正在尝试实现 Bron-Kerbosch 算法，这是一种用于查找派系的递归算法。我设法达到了一个点，它返回了正确数量的派系，但是当我打印它们时，它们不正确 - 添加了额外的节点。我在这里遗漏了什么明
c++ - 使用具有未定义行为的(STL)拷贝？
在评估中，我选择了选项LINE I 上的运行时错误。没有未定义行为这样的选项，尽管我认为这是正确的选择。我不确定，但我认为评估有误。我编译并运行了该程序，它确实打印了 3, 9, 0, 2, 1,
c++ - 通过 const 拷贝
在函数签名中通过 const 值传递参数是否有任何好处(或相反，成本)？所以: void foo( size_t nValue ) { // ... 对比 void foo( const s
c++ - 为什么我的自定义迭代器不能使用 STL 拷贝？
我为 answer to another question 写了一个 OutputIterator .在这里: #include using namespace std; template clas
c++ - 在同一进程中加载多个 dll 拷贝
我有一个由第三方生成的 dll，它具有某种内部数据结构，将其大小限制为 X 个元素。所以基本上，它有一个以 X 为限制的队列。据我所知，DLL 是每个进程的，但是是否可以多次加载 DLL？也许每个
c++ - 如何返回包含不在集合中的元素的 vector 拷贝？
假设我有以下两个数据结构: std::vector all_items; std::set bad_items; all_items vector 包含所有已知项和 bad_items vector
iphone - 如何复制(拷贝)一个 CIImage
如何在不渲染 CGImage 的情况下从另一个 CIImage 复制一个 CIImage 最佳答案 CIImage *copiedImage = [originalImage copy]; 正如您在
C++ Qt 如何创建具有小改动的 GUI 拷贝
我有一个名为 UINode 的 GUI，我想创建一个拷贝并只更改一些内容。该项目由 3 个基本线程组成。 PingThread、RosThread 和 GuiThread。我试图复制粘贴项目文件夹并将
c++ - Qt5 duplicate(拷贝)一个可执行文件
Qt 新手。如果这个问题太幼稚，请多多包涵。在 Windows 操作系统环境中，我有 Qt 对话框框架应用程序，它具有“重复”- 按钮。在同一目录中，有 Qt 应用程序 - (一个带有关闭按钮的对话框
c++ - 创建自定义“字符串”(结构)拷贝
我正在尝试创建一个函数来复制我的卡片结构。我只需复制 cvalue 即可轻松开始。然而，我的 cvalue 没有复制，当应该读取 1000 时它仍然读取 5。 #include #include
c++ - 正在制作多少 std::string 拷贝？
string str1("someString"); string str2 = string(str1);//how many copies are made here //copy2 =
c++ - boost::bind 内部拷贝/拷贝？
我希望了解 boost::bind 执行何种函数对象的内部拷贝。由于这些对象的构造函数似乎没有被调用，我推测这是一种“非常浅的复制”，所以我引入了动态内存分配来产生一些错误。但是，下面代码的运行时输出
c++ - 复制构造函数首先复制指针，然后取消引用它以获得 "deep"拷贝
我正在查看 http://isocpp.github.io/CppCoreGuidelines/CppCoreGuidelines#c22-make-default-operations-consis
c++ - cv::Point3f 赋值运算符是否执行 "deep"拷贝？
下面的类方法Augmented3dPoint::getWorldPoint()返回对其成员的引用 cv::Point3f world_point; class Augmented3dPoint { p
c++ - 在 C++ 中避免 lambda 拷贝
我需要通过 MyClass2 将用户定义的 lambda 传递给 MyClass1。我想确保只有一步，没有拷贝。下面的代码实现了吗？有没有更好的方法来做到这一点(比如使用编译器完成的隐式移动)？注意
c++ - 是否可以指示编译器删除 C++ 中返回的 variant_t 拷贝？
在我的数据库访问代码中，我想写一个方法: variant_t GetQueryRows (...) 我想这样调用它: const variant_t result = GetQueryRows (..
c++ - 只制作 const 对象的 const 拷贝
我有一个包含引用的类，例如: class A { A(B &b) : b(b) {} // constructor B &b; } 有时b必须是只读的，有时是可写的。当我创建一个 const A

首页

博学

6Ren·AI

商城

cuda - 默认固定内存与零拷贝内存