性能问题 : Single CPU core vs Single CUDA core-6ren

性能问题 : Single CPU core vs Single CUDA core

转载作者：行者123 更新时间：2023-12-04 02:43:49

29

4

我想将单个 Intel CPU 内核的速度与单个 nVidia GPU 内核的速度(即:单个 CUDA 代码、单个线程)进行比较。我确实实现了以下简单的二维图像卷积算法:

void convolution_cpu(uint8_t* res, uint8_t* img, uint32_t img_width, uint32_t img_height, uint8_t* krl, uint32_t krl_width, uint32_t krl_height)
{
    int32_t center_x = krl_width  / 2;
    int32_t center_y = krl_height / 2;
    int32_t sum;
    int32_t fkx,fky;
    int32_t xx,yy;

    float krl_sum = 0;
    for(uint32_t i = 0; i < krl_width*krl_height; ++i)
        krl_sum += krl[i];
    float nc = 1.0f/krl_sum;

    for(int32_t y = 0; y < (int32_t)img_height; ++y)
    {
        for(int32_t x = 0; x < (int32_t)img_width; ++x)
        {
            sum = 0;

            for(int32_t ky = 0; ky < (int32_t)krl_height; ++ky)
            {
                fky = krl_height - 1 - ky;

                for(int32_t kx = 0; kx < (int32_t)krl_width; ++kx)
                {
                    fkx = krl_width - 1 - kx;

                    yy = y + (ky - center_y);
                    xx = x + (kx - center_x);

                    if( yy >= 0 && yy < (int32_t)img_height && xx >= 0 && xx < (int32_t)img_width )
                    {
                        sum += img[yy*img_width+xx]*krl[fky*krl_width+fkx];
                    }
                }
            }
            res[y*img_width+x] = sum * nc;
        }
    }
}

CPU 和 GPU 的算法相同。我还制作了另一个与上面几乎相同的 GPU 版本。唯一的区别是我正在转移 img和 krl在使用它们之前将数组复制到共享内存中。

我使用了 2 张尺寸为 52x52 的图像，我得到了以下性能:

CPU:10毫秒

GPU:1338ms

GPU (smem): 1165ms

CPU 是 Intel Xeon X5650 2.67GHz，GPU 是 nVidia Tesla C2070。

为什么我会得到这样的性能差异？对于这个特定的代码，单个 CUDA 内核看起来要慢 100 倍!有人可以向我解释为什么吗？我能想到的原因是

CPU的更高频率

CPU 进行分支预测。

CPU可能有更好的缓存机制？

您认为造成这种巨大性能差异的主要问题是什么？

请记住，我想比较单个 CPU 线程和单个 GPU 线程之间的速度。我并不是要评估 GPU 的计算性能。我知道这不是在 GPU 上进行卷积的正确方法。

最佳答案

我试图解释，可能它会为你工作。

CPU acts as host and GPU acts as device.

为了在 GPU 上运行线程，CPU 将所有数据(计算 + 将在其上执行计算的数据)复制到 GPU。这个复制时间总是大于计算时间。因为计算是在 ALU-算术和逻辑单元中执行的。这只是一些说明。但是复制需要更多时间。

因此，当您在 CPU 中只运行一个线程时，CPU 将所有数据都保存在自己的内存中，拥有自己的缓存以及分支预测、预取、微操作重排序，L1 快 10 倍，L2 快 10 倍，能够调度 6 倍以上的指令每个周期，核心频率快 4.6 倍。

但是当你想在 GPU 上运行线程时，它首先将数据复制到 GPU 内存上。这一次需要更多的时间。其次，GPU 内核在一个时钟周期内运行线程网格。但为此我们需要对数据进行分区，以便每个线程都可以访问一个数组项。在您的示例中，它是 img 和 krl 数组。

还有一个可用于 nvidia GPU 的分析器。删除代码中的打印输出或打印等代码(如果存在)并尝试分析您的 exe。它将以毫秒为单位显示复制时间和计算时间。

循环并行化:当您使用 image_width 和 image_height 运行两个循环来计算图像时，它需要更多的时钟周期来执行，因为它在指令级运行通过计数器。但是当您将它们移植到 GPU 上时，您使用 threadid.x 和 threadid.y 以及 16 或 32 个线程的网格，这些线程仅在 GPU 的一个核心中运行一个时钟周期。这意味着它在一个时钟周期内计算 16 或 32 个数组项，因为它有更多的 ALU。(如果不存在依赖关系并且数据分区良好)

在您的卷积算法中，您在 CPU 中维护了循环，但在 GPU 中，如果您运行相同的循环，它将不会受益，因为 GPU 1 线程将再次充当 CPU 1 线程。还有内存缓存、内存复制、数据分区等的开销。

我希望这会让你明白...

关于性能问题 : Single CPU core vs Single CUDA core，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17057777/

29

4

0

文章推荐： navigation - Flexslider 隐藏幻灯片下方的项目符号

文章推荐： fonts - 在 meteor 中使用字体？

文章推荐： docx4j 不替换变量

文章推荐： visual-studio-2015 - 依赖项 >= 1.0.0-rc1-update1 无法解析

android - RxJava Single to Completable to Single - 如何将第一个 Single 的结果传递给第二个 Single
在下面的方法中，如何将第一个Single的结果传递给第二个Single？如现在所写，当它返回时，somethingId 是空的。如果我将返回的 Single.just(somethingId) 中的
C#:用 *single*\替换 single/
我发现很多帖子都在回答类似的问题(例如“如何用 / 替换 \”或“如何替换 \\” by \”。我理解所有这些，但没有一个能解决我的特殊问题。这里是: 我正在从注册表中读取路径字符串，其中包含“///
android - RxJava Single.toCompletable() 似乎以某种方式打破了 Single
注意:事实证明，toCompletable() 并非错误，而是调用代码。调用代码使得更改此方法使其工作(或不工作)。我有以下方法。它返回一个 Single。有用。执行内部代码，以便 remoteDa
javascript - single & 和 single | 是什么意思运营商在flow js中做什么？
react-native repo here 中的一个文件中有一段代码如下图: export type Operation = & {instanceID: DebugID} & (
c# - "Replace with single call to single"是什么意思？
当使用带有 Single() 的 LINQ 时，我的代码行总是带有绿色下划线，并带有建议“替换为对 single 的单一调用”。这是什么意思？下面是产生该建议的一行代码示例: var user = d
c# - 哪个更快 : Single(predicate) or Where(predicate). Single()
讨论来自 this answer让我好奇。哪个更快: someEnumerable.Single(predicate); 或 someEnumerable.Where(predicate).Singl
single-sign-on - key 斗篷 : Single Logout(SLO)
我正在使用 Keycloak 作为单点登录 (SSO) 平台的 OP。我已经将我的两个 Web 应用程序连接到 Keycloak，以便使用单点登录功能。此外，我已经制作了一个应用程序，当注销时将被重
java - rxJava : composing single with completable and return single
我的步骤是: 创建单个值 x - 可能会占用一些 CPU 资源使用值x来执行IO操作。这已经返回 Completable 返回x 所以我想这样做: Single result =
java - RxJava Single.just() vs Single.fromCallable()？
我想知道是否有人可以阐明这个问题，什么时候使用 Single.fromCallable( ()-> myObject ) 代替 Single.just(myObject) 根据文档，Single.fr
java - 当 Single.zip 中的一个来源失败时如何返回 Single.error()？
我有两个 Singles 来源，我将它们组合成一个 Single of Pair。假设我们对这些来源有两种方法: private Single single1() {} private Single
性能问题 : Single CPU core vs Single CUDA core
我想将单个 Intel CPU 内核的速度与单个 nVidia GPU 内核的速度(即:单个 CUDA 代码、单个线程)进行比较。我确实实现了以下简单的二维图像卷积算法: void convoluti
single-sign-on - Ping 联邦 : Single sign-on authentication was unsuccessful
我在实现 Ping Federate 时遇到此问题 Error - Single Sign-On Single sign-on authentication was unsuccessful (ref
java - RX Java Single 未从 Single.merge 返回
我有几个 api 调用(Rx singles)，我想将它们组合成一个 Single。我正在使用 Single.merge 尝试合并这些调用的结果，但是当我订阅响应时，我得到一个空数组，因为订阅已经发生
javascript - b :dataTable select a single row (and only a single one)
早上好。我的代码有问题 bootsfaces 。我需要我的 DataTable 支持单行选择，但不支持多行选择。但是，我的表格始终只使用多项选择。这是我的代码: 我没有进行简单的选择，因为我引用了
PHP : Using single quotes and double quotes in single string
我怎样才能像下面的代码那样使用字符串。 $str = 'Is yo"ur name O'reil"ly?'; 上面的代码只是一个例子..我需要使用包含单引号和双引号的大 html 模板。我尝试了 Ad
MongoDB 索引 : Multiple single-field vs single compound?
我有一组地理空间+时间数据和一些附加属性，我将在 map 上显示这些数据。该集合目前有几百万份文件，并且会随着时间的推移而增加。每个文档都有以下字段: 位置:[geojson 对象] 日期:[日期对
c# - SharpZipLib : Compressing a single file to a single compressed file
我目前在 .NET 2.0 下使用 SharpZipLib，通过它我需要将单个文件压缩为单个压缩存档。为此，我目前正在使用以下内容: string tempFilePath = @"C:\Users\
sql - 甲骨文 : Single multicolumn index or two single column indexes
我有 table create table1( column1 number(10, column2 number(10), column3 number(10) ); column1是主
android - Kotlin 协程 : one single coroutine at a time in single thread
考虑下面这段代码，我正在尝试使用 Executors.newFixedThreadPool(1).asCoroutineDispatcher()创建单线程调度程序；我想要 launch(singleT
java - RxJava 与 Single.zip 中嵌套的 Single.flatMap 相同吗？
我面临着困惑，举个例子 4 Single: val s1 : Single = service1.execute().subscribeOn(io()) val s2 : Single = servi

首页

博学

6Ren·AI

商城

性能问题 : Single CPU core vs Single CUDA core