c - SIMD 内在函数 - 段错误-6ren

c - SIMD 内在函数 - 段错误

转载作者：太空狗更新时间：2023-10-29 15:52:13

25

4

我正在运行以下代码:

#include <emmintrin.h>
#include <stdlib.h>
#include <stdio.h>

int main(int argv, char** argc)
{

        float a[] = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0};
        float b[] = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0};
        float c[] = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0};

        __m128 *v_a = (__m128*)(a+1); // Trying to create c[i] = a[i=1] * b[i];
        __m128 *v_b = (__m128*)(b);
        __m128 *v_c = (__m128*)(c);

        for (int i=0; i < 1; i++)
        {
                *v_c = _mm_mul_ps(*v_a,*v_b);
                v_a++;
                v_b++;
                v_c++;
        }

        for (int i=0; i<= 9;i++)
        {
                printf("%f\n",c[i]);
        }
        return 0;
}

并出现段错误:11(在运行 OS X“Mavericks”的 Mac 上)。

从 a 中删除 +1 并声明 a 时:

__m128 *v_a = (__m128*)(a+1);

有效。

现在我想知道一些事情:

为什么会这样？不应该有任何可能导致访问未分配内存的“内存对齐”问题。如果我的理解有误 - 请让我知道我错过了什么。
(__m128*)(a+1) 发生了什么转换。

我正在尝试了解 SIMD 的工作原理，因此您可以链接的任何信息 - 可能会帮助我理解它为什么会这样 react 。

最佳答案

扩展 Cory Nelson 的回答:

每种类型都有一个对齐方式。给定类型的对象“想要”一个地址，该地址是对齐的倍数。例如，float 类型的变量的对齐方式为 4。这从字面意思来说，当您获取 float 的地址并将其转换为整数时，您将得到 4 的倍数，因为编译器永远不会分配一个地址不是 float 的 4 的倍数。

在 32 位 x86 上，这里有一些对齐示例:char=1、short=2、int=4、long long=4、float=4、double=4、void*=4、SSE vector=16。对齐始终是 2 的幂。

如果我们将指针类型转换为具有更严格(更大)对齐的不同指针类型，我们可能会得到一个未对齐的地址。当您将 float *(对齐方式 4)转换为 __m128 *(对齐方式 16)时，这就是您的代码中发生的情况。访问(读取或写入)具有未对齐地址的对象的后果可能是零、性能损失或崩溃，具体取决于处理器架构。

我们可以打印出你的 vector 地址:

printf("%p %p %p\n", a, b, c);

或者为了更清楚，只是它们的低 4 位:

printf("%ld %ld %ld\n", (intptr_t)a & 0xF, (intptr_t)b & 0xF,(intptr_t)c & 0xF);

在我的机器上，这会输出 12 4 12，表明地址不是 16 的倍数，因此不是 16 字节对齐的。 (但请注意它们都是 4 的倍数，因为它们的类型是 float 组，而 float 必须是 4 字节对齐的。)

当您删除 +1 时，您的代码将不再崩溃。这是因为您对地址“很幸运”: float 必须对齐到 4 的倍数，但它们恰好也对齐到 16 的倍数。这是一颗定时炸弹!调整代码中的某些内容(例如，引入另一个变量)或更改优化级别，它很可能会开始崩溃!您需要显式对齐变量。

那么如何对齐呢？当您声明一个变量时，编译器(而不是您)会在内存中选择该变量所在的地址。它试图将变量尽可能靠近地打包在一起，以避免浪费空间，但它仍然必须确保地址与其类型正确对齐。

增加对齐的最佳方法之一是使用 union ，它包含一个类型，其对齐正是您所需要的:

   union vec {
        float f[10];
        __m128 v;
    };
    union vec av = {.f = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0}};
    union vec bv = {.f = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0}};
    union vec cv = {.f = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0}};
    float *a = av.f;
    float *b = bv.f;
    float *c = cv.f;
    printf("%ld %ld %ld\n", (intptr_t)a & 0xF, (intptr_t)b & 0xF,(intptr_t)c & 0xF);

现在 printf 输出 0 0 0，因为编译器为每个 float[10] 选择了 16 字节对齐的地址。

gcc 和 clang 还允许您直接请求对齐:

    float a[]  __attribute__ ((aligned (16))) = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0};
    float b[]  __attribute__ ((aligned (16))) = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0};
    float c[]  __attribute__ ((aligned (16))) = {1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0, 8.0, 9.0, 10.0};
    printf("%ld %ld %ld\n", (intptr_t)a & 0xF, (intptr_t)b & 0xF,(intptr_t)c & 0xF);

这也可以，但便携性较差。

也就是说，你的 +1 怎么样:

__m128 *v_a = (__m128*)(a+1);

假设 a 是 16 字节对齐的，并且类型为 float*，那么 a+1 添加 sizeof(float) (这是 4)到地址，这导致地址仅 4 字节对齐。这是一个硬件限制，您不能使用普通指令从仅 4 字节对齐的地址直接加载/存储到 SSE 寄存器中。它会崩溃!您必须改用不同的(较慢的)指令，例如 _mm_loadu_ps 生成的指令。

确保正确对齐是使用 SIMD 指令集的挑战之一。您会经常看到 SIMD 算法使用“正常”(标量)代码处理前几个元素，以便它可以达到 SIMD 指令要求的对齐。

关于c - SIMD 内在函数 - 段错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25596379/

25

4

0

文章推荐： android - 如何在 Android 中将 LatLng 添加到 List 中？

文章推荐： javascript - 控制 Firefox 的表单恢复

详解C语言sscanf()函数、vsscanf()函数、vscanf()函数
C语言sscanf()函数：从字符串中读取指定格式的数据头文件： ?
php - 如何解释at()函数； substr()函数;伪代码中的exist()函数
最近，我有一个关于工作预评估的问题，即使查询了每个功能的工作原理，我也不知道如何解决。这是一个伪代码。下面是一个名为foo()的函数，该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数，
VBS教程：函数-CStr 函数
CStr 函数返回表达式，该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CSng 函数
CSng 函数返回表达式，该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-CreateObject 函数
CreateObject 函数创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
VBS教程：函数-Cos 函数
Cos 函数返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
VBS教程：函数-CLng 函数
CLng 函数返回表达式，此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。说明通常，您可以使
VBS教程：函数-CInt 函数
CInt 函数返回表达式，此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。说明通常，可
VBS教程：函数-Chr 函数
Chr 函数返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。说明从 0 到 31 的数字表示标准的不可打印的
VBS教程：函数-CDbl 函数
CDbl 函数返回表达式，此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。说明通常，您可
VBS教程：函数-CDate 函数
CDate 函数返回表达式，此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。说明 IsDate 函数用于判断 d
VBS教程：函数-CCur 函数
CCur 函数返回表达式，此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。说明通常，
VBS教程：函数-CByte 函数
CByte 函数返回表达式，此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。说明通常，可以
VBS教程：函数-CBool 函数
CBool 函数返回表达式，此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。说明如果 ex
VBS教程：函数-Atn 函数
Atn 函数返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
VBS教程：函数-Asc 函数
Asc 函数返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符，则将发生运行时错误。
VBS教程：函数-Array 函数
Array 函数返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表（用逗号分隔）。如果没有指定此参数，则
VBS教程：函数-Abs 函数
Abs 函数返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null，则返回 Null；如果是未初始化变量，则返回 0。
VBS教程：函数-FormatPercent 函数
FormatPercent 函数返回表达式，此表达式已被格式化为尾随有 % 符号的百分比（乘以 100 ）。 FormatPercent(expression[,NumDigitsAfterD
VBS教程：函数-FormatNumber 函数
FormatNumber 函数返回表达式，此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc

首页

博学

6Ren·AI

商城

c - SIMD 内在函数 - 段错误