CUDA 统一内存工作(具体来说，cudaMallocManaged();)-6ren

CUDA 统一内存工作(具体来说，cudaMallocManaged();)

转载作者：太空宇宙更新时间：2023-11-04 11:09:59

26

4

我最近一直在玩 CUDA，希望尝试一下统一内存模型。我尝试使用示例代码，奇怪的是，在启动内核时，似乎没有任何值在更新。从主机修改统一数据工作正常，但启动的内核根本不会修改统一数据。

我的显卡是 GTX 770，内存为 4GB。我正在运行 Arch Linux，内核 3.14-2，使用 GCC 4.8 来编译我的示例。我将计算架构设置为 sm_30，并激活 -m64 标志

这是我正在玩的一个示例。 X[0] 和 X[1] 始终计算为 0，即使在内核启动时也是如此。

#include<stdio.h>
#include <cuda.h>

__global__ void kernel(int* x){
    x[threadIdx.x] = 2;
}

int main(){
    int* x;
    cudaMallocManaged(&x, sizeof(int) * 2);
    cudaError_t error = cudaGetLastError();
    printf("%s\n", error);
    x[0] = 0;
    x[1] = 0;

    kernel<<<1, 2>>>(x);
    cudaDeviceSynchronize();

    printf("result = %d\n", x[1]);

    cudaFree(x);
    return 0;
}

另一个例子是这样的:

__global__ void adjacency_map_init_gpu(adjacency_map_t* map){
    int row = threadIdx.y + blockIdx.y * blockDim.y;
    int col = threadIdx.x + blockIdx.x * blockDim.x;

    int i = row * map->width + col;

    max(i, 0);
    min(i, map->width * map->height);

    map->connections[i] = 0;
}

__global__ void adjacency_map_connect_gpu(edge_t* edges, int num_edges, adjacency_map_t* map){

    int i = threadIdx.x + (((gridDim.x * blockIdx.y) + blockIdx.x)*blockDim.x);

    max(i, 0);
    min(i, num_edges);

    int n_start = edges[i].n_start;
    int n_end = edges[i].n_end;

    int map_index = n_start * map->width + n_end;
    map->connections[map_index] = 1;
    printf("%d new value: %d\n", map_index, map->connections[map_index]);
}

adjacency_map_t* adjacency_map_init(int num_nodes, edge_t* edges, int num_edges){
    adjacency_map_t *map;// = (adjacency_map_t*)malloc(sizeof(adjacency_map_t));
    cudaMallocManaged(&map, sizeof(adjacency_map_t));
    cudaMallocManaged(&(map->connections), num_nodes * num_nodes * sizeof(int));
    //map->connections = (int*)malloc(sizeof(int) * num_nodes * num_nodes);

    map->width = num_nodes;
    map->height = num_nodes;

    map->stride = 0;

    //GPU stuff
//    adjacency_map_t *d_map;
//    int* d_connections;

//    cudaMalloc((void**) &d_map, sizeof(adjacency_map_t));
//    cudaMalloc((void**) &d_connections, num_nodes * num_nodes * sizeof(int));

//    cudaMemcpy(d_map, map, sizeof(adjacency_map_t), cudaMemcpyHostToDevice);
//    cudaMemcpy(d_connections, map->connections, num_nodes * num_nodes, cudaMemcpyHostToDevice);
//cudaMemcpy(&(d_map->connections), &d_connections, sizeof(int*), cudaMemcpyHostToDevice);

//    edge_t* d_edges;
//    cudaMalloc((void**) &d_edges, num_edges * sizeof(edge_t));
//    cudaMemcpy(d_edges, edges, num_edges * sizeof(edge_t), cudaMemcpyHostToDevice);

adjacency_map_init_gpu<<<1, 3>>>(map);
cudaDeviceSynchronize();
//adjacency_map_connect_gpu<<<1, 3>>>(edges, num_edges, map);

cudaDeviceSynchronize();

//    cudaMemcpy(map, d_map, sizeof(adjacency_map_t), cudaMemcpyDeviceToHost);
//Synchronize everything
//    cudaFree(map);
//    cudaFree(edges);

return map;

}

基本上，对于第二段代码，我可以访问主机上原始结构中的所有元素。然而，一旦我尝试启动内核函数，指针就变得不可访问(至少，从 gdb 测试)，并且整个对象的数据不可访问。在第一次内核启动后，我仍然能看到的边缘和 map 指针的唯一部分是它们各自的位置。

任何帮助将不胜感激!非常感谢!

最佳答案

知道了!

原来这是启用了 IOMMU 内核选项的问题。我的主板 GIGABYTE 990-FXAUD3 似乎在 GPU 和 CPU 之间的 IOMMU 有错误。

检测:每当您在控制台(没有 X)中启动统一内存访问代码时，应该会出现类似如下的错误消息:

AMD-Vi:事件记录 [IO_PAGE_FAULT device=01:00.0 domain=0x0017 address=0x00000002d80d5000 flags=0x0010]

向下滚动页面。屏幕右上角也可能有一些变色(至少对我来说是这样)。

这是解决方案(假设您使用 GRUB):

打开/etc/default/grub，并为 GRUB_CMDLINE_LINUX_DEFAULT=""行在引号内添加选项 iommu=soft。

希望这对人们有所帮助!非常感谢 Robert Crovella 帮助我缩小了问题的范围!

关于CUDA 统一内存工作(具体来说，cudaMallocManaged();)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23645986/

26

4

0

文章推荐： jquery - Bootstrap 折叠菜单滚动问题

javascript - 检查日期是否已过(具体)
我是 Robert，我在使用 JavaScript 时遇到了一些问题。我得到了一个 (这是隐藏的)。我唯一想问你的是:我想检查日期是否在中已通过。如果通过了我想改变CSS中容器的背景颜色。不幸的
Java 跳过打印语句扫描器，具体
所以我的问题是我想要求输入使用扫描仪的信息，但它根本不打印出来。当它显示跳过的扫描仪的值时，Scanner CheeseType = new Scanner(System.in);，我得到 null。
mysql - 如何获得总和(具体)
Fe_Order_Items fe_order_items_id fe_order_specification_id fe_users_id fe_menu_items_id fe_order_ite
django - 什么是分布式消息系统？具体 'distributed'里面是什么？
人们普遍提到 - “Celery 是一个基于分布式消息传递的异步任务队列/作业队列”。虽然我知道如何使用 Celery 工作人员等。但内心深处我不明白分布式消息传递的真正重要性和意义以及任务队列在其中
c - 具体 C 字符未知
我试图理解下面的代码，但有一些我以前从未见过的东西，那就是:“\&\&” 这是代码: int main() { fork() \&\& (fork() || fork()); exit(EXIT_SU
python - Tkinter 屏幕删除，具体
您好，我是论坛新手。我有很多使用 python 的经验，但没有使用 tkinter 的经验。这是我的代码: from tkinter import * def Done(): celEn
c# - 具体 C# 类中是否需要可序列化属性？
在 C# 中，假设我们有一个通用类和一个具体类 [Serializable] public class GenericUser { ... [Serializable] public class Co
java - 实例化通用抽象类的子(具体)类，其构造函数需要其他参数类
我尝试使用的库有一个通用抽象类，其中有两个实现该基础的子类。我想编写一个类，它将根据构造函数参数的参数类型自动创建其中一个子级的实例。基类没有默认构造函数基类的构造函数也需要其他通用类的实例代码
javascript - 具体 $scope.apply();场景 :
我是 Angular 的新手，我一直在尝试了解它的工作原理。我正在制作一个简单的应用程序，其中有人可以通过简单的 html 界面添加用户并使用 SQLite 将其存储在数据库中，然后他们可以编辑或删除
c++ - 具体 "getter setter"专用对象
我想创建一个用于存储数据的对象，限制读/写访问。例如: OBJ obj1; OBJ obj2; // DataOBJ has 2 methods : read() and write() DataO
c# - 具体 .Net 类的依赖注入(inject)
注入(inject)/隔离密封在 dll 中且不实现接口(interface)的类的首选方法是什么？我们使用 Ninject。假设我们有一个类“Server”，我们想要注入(inject)/隔离“
php - 如何将 Android 应用程序连接到 mySQL *具体*
在花费了至少 10 个小时的时间浏览在线资源、视频和教程之后，我有两个关于将我的 Android 应用程序与 mySQL 数据库连接的问题。保存文件 1) 所有教程都将 php 文件保存在 C/WA
django - 我应该以任何方式避免 Django 中的多表(具体)继承吗？
许多有经验的开发人员建议不要使用 Django multi-table inheritance因为它的性能不佳: Django gotcha: concrete inheritance通过 Jacob
c# - 无法将类型 [具体] 隐式转换为 [接口(interface)]
我知道我冒着挨揍的风险，但我觉得我在这件事上要绕圈子。为了让模型可用于多个项目，我们已将模型移出到一个单独的项目(一个 DLL)中，作为一系列要实现的接口(interface)。我们的界面上有这一行:
unit-testing - 除了 "all of them"作为答案之外，什么类型的应用程序(具体)在单元测试中取得了真正的成功？
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
css - 具体 Mac 显示 : inline-block issue
我遇到了一个特定 mac 的问题，它没有显示我正确构建的某个网站。我测试过的所有其他 mac 和 pc 都能正确显示网站，但是在所有浏览器中这个特定的 mac 显示不正确就像提到的那样，这在其他每台计
c# - 具有抽象(基)/具体(继承)类的 DataContractSerializer
给定这段代码 public override void Serialize(BaseContentObject obj) { string file = ObjectDataStoreFold
php - 具体 5.8.2 类 'finfo' 未找到
我已经搜索了网络和我的服务器，但我无法找到我网站的 php.ini。我的网站出现以下错误。 Class 'finfo' not found Details G:\inetpub\wwwroot\lan
mysql - 如何使用 View 执行复杂的 sql 查询，而不是依赖中间(具体)表
SQL 爱好者: 我正在尝试通过玩以下用例来挖掘我一些生疏的 sql 技能: 假设我们有一家有线电视公司，并且有跟踪的数据库表: 电视节目，观看我们节目的客户，以及观看事件(特定客户观看特定节目的
javascript - 使用 vanilla JavaScript 创建的 HTML5 web 组件应该有多通用/具体？
我正在设计一个使用 HTML5 网络组件(HTML 导入、影子 DOM、模板和自定义 HTML 元素)的网络应用程序，这些组件是通过普通 JavaScript(无框架)实现的。 Web 应用程序相当简

首页

博学

6Ren·AI

商城

CUDA 统一内存工作(具体来说，cudaMallocManaged();)