c - 这种指针和循环的组合有什么好处吗？-6ren

c - 这种指针和循环的组合有什么好处吗？

转载作者：太空宇宙更新时间：2023-11-04 00:56:39

25

4

我正在研究 Cheng 的 CUDA C Programming，并遇到了这段代码:

void sumMatrixOnHost (float *A, float *B, float *C, const int nx, const int ny) {
    float *ia = A;
    float *ib = B;
    float *ic = C;
    for (int iy=0; iy<ny; iy++) {
        for (int ix=0; ix<nx; ix++) {
            ic[ix] = ia[ix] + ib[ix];
        }
        ia += nx; ib += nx; ic += nx;
    }
}

这用于矩阵加法，其中矩阵以行优先格式存储。

据我了解，内部 for 循环迭代一行并执行元素添加，然后使用外部 for 循环将指针递增到下一行的开头。

为什么这种方法比在整个矩阵上使用指针更好，即

for (int i=0; i<ny*nx; i++) {
    ic[i] = ia[i] + ib[i];
}

或双重 for 循环，即

for (int iy=0; iy<ny; iy++) {
    for (int ix=0; ix<nx; ix++) {
        ic[iy*nx+ix] = ia[iy*nx+ix] + ib[iy*nx+ix];
    }
}

这与编译器如何优化它有关吗？

最佳答案

最简单的方法，永远是最好的方法:

for (int i=0; i<ny*nx; i++) {
    C[i] = A[i] + B[i];
}

这将比第一个解决方案更快。按行拆分矩阵的问题在于向量化器将执行以下操作:

以 32 字节(YMM 的大小)为一组处理行
处理行末剩余的少量值。
现在对每一行重复!

但是，如果您使用单个循环执行此操作，则生成的代码将是:

以 32 字节(YMM 的大小)为一组处理所有数据
处理矩阵末尾未对齐到 32 字节 block 的剩余少数值。

第一个版本只是添加了无意义的代码来处理内循环。这些代码都不需要，它只是破坏了向量化整个矩阵的能力。

关于c - 这种指针和循环的组合有什么好处吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58723455/

25

4

0

文章推荐： c - 在 C 中通过引用返回和传递文件描述符

文章推荐： javascript - Nodegit 克隆不起作用？

文章推荐： c - if 条件下发生了什么？

c - *指针 = - *指针？
我刚接触 C 语言几周，所以对它还很陌生。我见过这样的事情 * (variable-name) = -* (variable-name) 在讲义中，但它到底会做什么？它会否定所指向的值吗？最佳答案
c - void 指针 = int 指针 = float 指针
我有一个指向内存地址的void 指针。然后，我做 int 指针 = void 指针 float 指针 = void 指针然后，取消引用它们以获取值。 { int x = 25; vo
c++ - 需要将char*(指针)转换为wchar_t*(指针)
我正在与计算机控制的泵进行一些串行端口通信，我用来通信的 createfile 函数需要将 com 端口名称解析为 wchar_t 指针。我也在使用 QT 创建一个表单并获取 com 端口名称作为
C 指针。将大数赋值给 char * 指针
#include "stdio.h" #include "malloc.h" int main() { char*x=(char*)malloc(1024); *(x+2)=3; --
c - int 指针转换为 void 指针，然后转换为 double 指针
#include #include main() { int an_int; void *void_pointer = &an_int; double *double_ptr = void
从 C 中的 3D 指针/数组调用 2D 指针/数组
对于每个时间步长，我都有一个二维矩阵 a[ix][iz]，ix 从 0 到 nx-1 和 iz 从 0 到 nz-1。为了组装所有时间步长的矩阵，我定义了一个长度为 nx*nz*nt 的 3D 指针
c - 释放已分配给 char 指针(字符串)数组的内存。我必须释放每个字符串还是只释放 "main"指针？
我有一个函数，它接受一个指向 char ** 的指针并用字符串填充它(我猜是一个字符串数组)。 *list_of_strings* 在函数内部分配内存。 char * *list_of_strings
c - 使用 malloc 初始化 char 指针 VS 不使用 malloc 直接将字符串赋给 char 指针
我试图了解当涉及到字符和字符串时，内存分配是如何工作的。我知道声明的数组的名称就像指向数组第一个元素的指针，但该数组将驻留在内存的堆栈中。另一方面，当我们想要使用内存堆时，我们使用 malloc，
c# - 通过 P/Ivoke 在 C# 中传递 Struct 指针(主体中带有 char 指针)
我有一个 C 语言的 .DLL 文件。该 DLL 中所有函数所需的主要结构具有以下形式。 typedef struct { char *snsAccessID; char *
指针,C语言的精髓
指针, C语言的精髓莫队先咕几天, 容我先讲完树剖 (因为后面树上的东西好多都要用树剖求 LCA). 什么是指针保存变量地址的变量叫做指针. 这是大概的定义, 但是Defad认为
javascript使递归数组遍历并更新一些内部值(指针)
我得到了以下数组: let arr = [ { children: [ { children: [], current: tru
C程序输出困惑(指针)
#include int main(void) { int i; int *ptr = (int *) malloc(5 * sizeof(int)); for (i=0;
c程序，指针
我正在编写一个程序，它接受一个三位数整数并将其分成两个整数。 224 将变为 220 和 4。 114 将变为 110 和 4。基本上，您可以使用模数来完成。我写了我认为应该工作的东西，编译器一直说
循环中指向int的C++指针？
好吧，我对 C++ 很陌生，我确定这个问题已经在某个地方得到了回答，而且也很简单，但我似乎找不到答案.... 我有一个自定义数组类，我将其用作练习来尝试了解其工作原理，其定义如下: 标题: class
C++ `this` 指针
1) this 指针与其他指针有何不同？据我了解，指针指向堆中的内存。如果有指向它们的指针，这是否意味着对象总是在堆中构造？ 2)我们可以在 move 构造函数或 move 赋值中窃取this指针吗？
C结构，指针
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: C : pointer to struct in the struct definition 在我的初学者类
复制多维数组(指针)
我有两个指向指针的结构指针 typedef struct Square { ... ... }Square; Square **s1; //Representing 2D array of say,
c变量分配内存，指针
变量在内存中是如何定位的？我有这个代码 int w=1; int x=1; int y=1; int z=1; int main(int argc, char** argv) { printf
c编程语言，指针
#include #include main() { char *q[]={"black","white","red"}; printf("%s",*q+3); getch()
指向类成员的模板函数的C++指针
我在“C”类中有以下函数 class C { template void Func1(int x); template void Func2(int x); }; template void

首页

博学

6Ren·AI

商城

c - 这种指针和循环的组合有什么好处吗？