cuda - 为什么NVENC示例同时使用cuMemcpyHtoD和cuMemcpy2D复制YUV数据？-6ren

cuda - 为什么NVENC示例同时使用cuMemcpyHtoD和cuMemcpy2D复制YUV数据？

转载作者：行者123 更新时间：2023-12-01 14:38:39

27

4

我正在学习NVIDIA NVENCAPI。SDK提供了一个名为“NvEncoderCudaInterop”的示例。其中有大量代码将YUV平面数组从CPU复制到GPU缓冲区。
这是代码:

 // copy luma
 CUDA_MEMCPY2D copyParam;
memset(&copyParam, 0, sizeof(copyParam));
copyParam.dstMemoryType = CU_MEMORYTYPE_DEVICE;
copyParam.dstDevice = pEncodeBuffer->stInputBfr.pNV12devPtr;
copyParam.dstPitch = pEncodeBuffer->stInputBfr.uNV12Stride;
copyParam.srcMemoryType = CU_MEMORYTYPE_HOST;
copyParam.srcHost = yuv[0];
copyParam.srcPitch = width;
copyParam.WidthInBytes = width;
copyParam.Height = height;
__cu(cuMemcpy2D(&copyParam));

// copy chroma

__cu(cuMemcpyHtoD(m_ChromaDevPtr[0], yuv[1], width*height / 4));
__cu(cuMemcpyHtoD(m_ChromaDevPtr[1], yuv[2], width*height / 4));

我确实了解该过程的原理。将内存复制到GPU以供内核处理。我不明白的原因是，为了复制Y平面，使用cuMemcpy2D并将其用于UV cuMemcpyHtoD吗？也可以使用cuMemcpyHtoD复制吗？据我了解，YUV平面具有相同的线性内存布局。唯一的区别是它们的大小。

PS:我最初在 Computer Graphics网站上问了这个问题，但没有得到答案。

最佳答案

在主机上，YUV缓冲区数据(假定为)存储为未分隔的YUV 4:2:0数据，存储在单独的平面中。这意味着Y有它自己的平面(yuv[0])，然后是U(yuv[1])，然后是V(yuv[2])。

设备上的预期存储目标是(NV12)缓冲区格式，定义为NV_ENC_BUFFER_FORMAT_NV12_PL，文档(NvEncodeAPI_v.5.0.pdf，第12页)定义为:

NV_ENC_BUFFER_FORMAT_NV12_PL半平面YUV [UV交错]分配为串行2D缓冲区。

请注意，这是为了:

节距存储(这很明显，因为主缓冲区指针pEncodeBuffer->stInputBfr.pNV12devPtr先前已使用cuMemAllocPitch在该文件中分配了)

“半平面”存储。主机上的(无间距)平面存储意味着Y，然后是U，然后是V。设备上的“半平面”存储意味着Y平面，然后是具有U和V交错的特殊平面:

U0V0  U1V1  U2V2 ...

因此，只需一次2D memcpy调用即可轻松复制Y数据。但是，UV平面需要从单独的缓冲区进行一些组装。该代码的编写者选择按以下方式进行汇编:

将U平面和V平面分别复制到设备，并复制到独立的未插入缓冲区中。那就是您所显示的代码，并且设备上的独立缓冲区分别是m_ChromaDevPtr[0]和m_ChromaDevPtr[1](U然后V，分开，不加音调)。

使用CUDA内核在设备上组装UV交错的倾斜平面。这是有道理的，因为存在大量数据移动，并且具有更高内存带宽的设备可以比主机上更有效地执行此操作。还要注意，单个2D memcpy调用无法处理这种情况，因为我们实际上有2个大步。一个是从一个元素到另一个元素的(短)步幅，例如，在上面的示例中，从U0到U1的短步幅。另一个跨度是每行末尾的“较长”跨度，“正常”跨度与变调分配相关联。

从非交错的，未插入间距的 m_ChromaDevPtr[0]和 m_ChromaDevPtr[1]缓冲区在设备上完成UV交错的，倾斜的平面的“组装”的内核称为 m_cuInterleaveUVFunction，它在此处启动(紧随显示的代码之后，从您显示的代码的结尾):

    __cu(cuMemcpyHtoD(m_ChromaDevPtr[0], yuv[1], width*height / 4));
    __cu(cuMemcpyHtoD(m_ChromaDevPtr[1], yuv[2], width*height / 4));

#define BLOCK_X 32
#define BLOCK_Y 16
    int chromaHeight = height / 2;
    int chromaWidth = width / 2;
    dim3 block(BLOCK_X, BLOCK_Y, 1);
    dim3 grid((chromaWidth + BLOCK_X - 1) / BLOCK_X, (chromaHeight + BLOCK_Y - 1) / BLOCK_Y, 1);
#undef BLOCK_Y
#undef BLOCK_X

    CUdeviceptr dNV12Chroma = (CUdeviceptr)((unsigned char*)pEncodeBuffer->stInputBfr.pNV12devPtr + pEncodeBuffer->stInputBfr.uNV12Stride*height);
    void *args[8] = { &m_ChromaDevPtr[0], &m_ChromaDevPtr[1], &dNV12Chroma, &chromaWidth, &chromaHeight, &chromaWidth, &chromaWidth, &pEncodeBuffer->stInputBfr.uNV12Stride};

    __cu(cuLaunchKernel(m_cuInterleaveUVFunction, grid.x, grid.y, grid.z,
        block.x, block.y, block.z,
        0,
        NULL, args, NULL));
    CUresult cuResult = cuStreamQuery(NULL);
    if (!((cuResult == CUDA_SUCCESS) || (cuResult == CUDA_ERROR_NOT_READY)))
    {
        return NV_ENC_ERR_GENERIC;
    }
    return NV_ENC_SUCCESS;
}

请注意，传递给此“UV Assembly”内核的一些参数是:

指向设备上单独的U和V缓冲区的指针(例如&m_ChromaDevPtr[0]等)

指向主缓冲区中UV交错平面将为(&dNV12Chroma)

的起始位置的指针

指向目标缓冲区音调的指针(&pEncodeBuffer->stInputBfr.uNV12Stride)

就像您将要编写自己的内核来进行该汇编一样。如果要查看程序集内核中的实际内容，则在该示例项目的preproc.cu文件中。

编辑:
在评论中回答问题。在主机上，Y数据是这样存储的(假设每行仅包含4个元素。这对于YUV 4:2:0数据并不真正正确，但是这里的重点是复制操作，而不是行长) ):

Y0  Y1  Y2  Y3
Y4  Y5  Y6  Y7
....

在设备上，该缓冲区的组织方式如下:

Y0  Y1  Y2  Y3  X  X  X  X
Y4  Y5  Y6  Y7  X  X  X  X
...

其中 X值被填充以使每行等于音高。要从上方的主机缓冲区复制到上方的设备缓冲区，我们必须使用带间距的副本，即 cuMemcpy2D。

在主机上，U数据的组织方式如下:

U0  U1  U2  U3
U4  U5  U6  U7
....

V数据的组织方式类似:

V0  V1  V2  V3
V4  V5  V6  V7
....

在设备上，以上的U和V数据最终将组合到一个单独的UV平面中，该平面也将像这样倾斜:

U0V0  U1V1  U2V2  U3V3  X  X  X  X
U4V4  U5V5  U6V6  U7V7  X  X  X  X
...

没有一个单独的memcpy操作可以正确地从未分配主机的仅U和V缓冲区中获取数据，并根据上述模式存储该数据。它需要将U和V缓冲区组装在一起，然后将数据存放在倾斜的目标缓冲区中。首先，通过将U和V数据复制到单独的设备缓冲区中来进行处理，这些缓冲区的组织方式与在主机上完全相同:

U0  U1  U2  U3
U4  U5  U6  U7
....

这种类型的副本使用普通的，无节距的 cuMemcpyHtoD处理

这是操作图:

笔记:

无法使用普通的cuMemcpyHtoD进行Y数据的复制，因为目标数据已发送。

U和V数据的副本是从未分配缓冲区到未分配缓冲区的，因此可以使用cuMemcpyHtoD。

U和V数据的主机到设备副本无法直接进入NV12缓冲区，因为没有cuMemcpy操作(2D或其他方式)可以处理该特定目标存储模式。

关于cuda - 为什么NVENC示例同时使用cuMemcpyHtoD和cuMemcpy2D复制YUV数据？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33012998/

27

4

0

文章推荐： java - 为什么 getBuffer() 会出现错误？

文章推荐： java - 无法在目标阶段生成 jaxb .xsd 到 java 类

文章推荐： java - 如何将对象数组传递给按钮？

文章推荐： system.reactive - 如何观察一组项目何时都有效？

检查用户输入的字符串在 C 中的格式为 "%d/%d/%d/%d/%d"
关闭。这个问题需要debugging details .它目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and th
java - 使用此表单获取号码\d\s\d\d\s\d
我试图用这种形式简单地获取数字 28 integer+space+integer+integer+space+integer我试过这个正则表达式 \\s\\d\\d\\s 但我得到了两个数字11 和
d - D 语言是否完全依赖于 D 运行时？
最近一直在学习D语言。我一直对运行时感到困惑。从我能收集到的关于它的信息中，(这不是很多)我知道它是一种有助于 D 的一些特性的运行时。像垃圾收集一样，它与您自己的程序一起运行。但是既然 D 是编译
java - 这两种语法\\d\\d\\d 和\\d{3} 在所有环境中都一样吗？
想问一下这两个正则表达式有区别吗？ \d\d\d 与 \d{3} 我已经在我的本地机器上使用 Java 和 Windows 操作系统对此进行了测试，两者都工作正常并且结果相同。但是，当在 linux
go - 为什么我不能执行 fmt.Sprintf ("%d.%d.%d.%d"，一个...)？
我正在学习 Go，而且我坚持使用 Go 之旅(exercise-stringer.go:https://tour.golang.org/methods/7)。这是一些代码: type IPAddr
java - Java中的正则表达式: Pattern.编译( "J.*\\d[0-35-9]-\\d\\d-\\d\\d")
我在Java正则表达式中发现了一段令我困惑的代码: Pattern.compile( "J.*\\d[0-35-9]-\\d\\d-\\d\\d" ); 要编译的字符串是: String string
ruby - gsub(/(\d{4})\/(\d\d)\/(\d\d)\/(.*)/, '\1-\2-\3-\4' ) 是什么意思？
我在 ruby 代码上偶然发现了这个。我知道\d{4})\/(\d\d)\/(\d\d)\/(.*)/是什么意思，但是\1-\2-\3-\4 是什么意思？最佳答案 \1-\2-\3-\4 是 b
d - 如何在没有 D 运行时编译 D 应用程序？
我一直在努力解决这个问题，这让我很恼火。我了解 D 运行时库。它是什么，它做什么。我也明白你可以在没有它的情况下编译 D 应用程序。就像 XoMB 所做的那样。好吧，XoMB 定义了自己的运行时，但是
Java算法到 "multiply"两个列表列表((A),(B))*((C,C),(D,D))==((A,C,C),(A,D,D), (B,C,C),(B,D,D))
我有两个列表列表，子列表代表路径。我想找到所有路径。 List> pathList1 List> pathList2 当然是天真的解决方案: List> result = new ArrayList>
java - 如何清理和打印\d{3}\d{3}\d{2}\d{2}格式的数字
我需要使用 Regex 格式化一个字符串，该字符串包含数字、字母 a-z 和 A-Z，同时还包含破折号和空格。从用户输入我有02-219 8 53 24 输出应该是022 198 53 24 我正在
d - D 中的表达式模板
目标是达到与this C++ example相同的效果: 避免创建临时文件。我曾尝试将 C++ 示例翻译为 D，但没有成功。我也尝试过不同的方法。 import std.datetime : benc
d - D 中的完美转发？
tl;dr:你好吗perfect forwarding在 D？该链接有一个很好的解释，但例如，假设我有这个方法: void foo(T)(in int a, out int b, ref int c
d - D 中的抽象自动函数
有什么方法可以在 D 中使用abstract auto 函数吗？如果我声明一个类如下: class MyClass { abstract auto foo(); } 我收到以下错误: mai
d - D 中的切片交集
有没有人为内存中重叠的数组切片实现交集？算法在没有重叠时返回 []。当 pretty-print (使用重叠缩进)内存中重叠的数组切片时，我想要这个。最佳答案如果您确定它们是数组，那么只需取 p
d - D 中循环索引变量的默认类型是什么？
我已经开始学习 D，但我在使用 Andrei Alexandrescu 所著的 The D Programming Language 一书中提供的示例时遇到了一些麻烦。由于 int 和 ulong 类
d - D 中唯一的不可变类
如何创建一个不可变的类？我的目标是创建一个实例始终不可变的类。现在我只是用不可变的方法和构造函数创建了一个“可变”类。我将其称为 mData，m 表示可变。然后我创建一个别名 alias immut
d - D 中的扩展函数
不久前我买了《The D Programming Language》。好书，很有教育意义。但是，我在尝试编译书中列出的语言功能时遇到了麻烦:扩展函数。在这本书中，Andrei 写了任何可以像这样调用
d - D 中的无限数据结构
我在 D http://www.digitalmars.com/d/2.0/lazy-evaluation.html 中找到了函数参数的惰性求值示例我想知道如何在 D 中实现可能的无限数据结构，就像
c - printf ("%d %d %d\n",++a, a++,a) 输出
这个问题在这里已经有了答案: 12 年前关闭。 Possible Duplicate: Could anyone explain these undefined behaviors (i = i++
d - D:查找具有特定属性的所有功能
当前是否可以跨模块扫描/查询/迭代具有某些属性的所有函数（或类）？例如： source/packageA/something.d: @sillyWalk(10) void doSomething()

首页

博学

6Ren·AI

商城

cuda - 为什么NVENC示例同时使用cuMemcpyHtoD和cuMemcpy2D复制YUV数据？