c++ - 如何指示编译器为 __m128 生成未对齐的加载-6ren

c++ - 如何指示编译器为 __m128 生成未对齐的加载

转载作者：可可西里更新时间：2023-11-01 16:42:13

30

4

我有一些代码可以使用 __m128 值。我在这些值上使用 x86-64 SSE 内在函数，我发现如果这些值在内存中未对齐，我会崩溃。这是由于我的编译器(在本例中为 clang)仅生成对齐的加载指令。

我能否指示我的编译器生成未对齐的加载，无论是全局加载还是针对某些值(可能带有某种注释)？

首先我有未对齐值的原因是我试图节省内存。我有一个 struct 大致如下:

#pragma pack(push, 4)
struct Foobar {
    __m128 a;
    __m128 b;
    int c;
};
#pragma pack(pop)

然后我将创建这些结构的数组。数组中的第二个元素从 36 字节开始，不是 16 的倍数。

我知道我可以切换到数组表示的结构，或者删除 packing pragma(代价是将结构的大小从 36 字节增加到 48 字节)；但我也知道现在未对齐的负载并不那么昂贵，我想先尝试一下。

更新以回答以下一些评论:

我的实际代码更接近于此:

struct Vector4 {
    __m128 data;
    Vector4(__m128 v) : data(v) {}
};
struct Foobar {
    Vector4 a;
    Vector4 b;
    int c;
}

然后我有一些实用功能，例如:

inline Vector4 add( const Vector4& a, const Vector4 &b ) {
    return Vector4(_mm_add_ps(a.data, b.data));
}

inline Vector4 subtract( const Vector4& a, const Vector4& b ) {
    return Vector4(_mm_sub_ps(a.data, b.data));
}

// etc..

我经常结合使用这些实用程序。假的例子:

Foobar myArray[1000];
myArray[i+1].b = sub(add(myArray[i].a, myArray[i].b), myArray[i+1].a);

当查看“Z Bozon”的答案时，我的代码实际上变成了:

struct Vector4 {
    float data[4];
};

inline Vector4 add( const Vector4& a, const Vector4 &b ) {
    Vector4 result;
    _mm_storeu_ps(result.data, _mm_add_ps(_mm_loadu_ps(a.data), _mm_loadu_ps(b.data)));
    return result;
}

我担心的是，当像上面那样组合使用实用函数时，生成的代码可能会有冗余的加载/存储指令。事实证明这不是问题。我测试了我的编译器 (clang)，它已将它们全部删除。我会接受 Z Bozon 的回答。

最佳答案

在我看来，您应该使用标准的 C++ 结构(__m128i 不是)来编写您的数据结构。当您想使用不是标准 C++ 的内部函数时，您可以通过 _mm_loadu_ps 等内部函数“进入 SSE 世界”，然后使用 _mm_storeu_ps 等内部函数“离开 SSE 世界”回到标准 C++ 。不要依赖隐式 SSE 加载和存储。我在这样做时看到了太多错误。

在这种情况下你应该使用

struct Foobar {
    float a[4];
    float b[4];
    int c;
};

那么你可以做

Foobar foo[16];

在这种情况下，foo[1] 不会进行 16 字节对齐，但是当您想使用 SSE 并保留标准 C++ 时，请执行

__m128 a4 = _mm_loadu_ps(foo[1].a);
__m128 b4 = _mm_loadu_ps(foo[1].b);
__m128 max = _mm_max_ps(a4,b4);
_mm_storeu_ps(array, max);

然后回到标准 C++。

你可以考虑的另一件事是

struct Foobar {
    float a[16];
    float b[16];
    int c[4];
};

然后得到原始结构的16个数组做

Foobar foo[4];

在这种情况下，只要第一个元素对齐，所有其他元素也对齐。

如果您想要作用于 SSE 寄存器的效用函数，则不要在效用函数中使用显式或隐式加载/存储。将 const 引用传递给 __m128 并在需要时返回 __m128。

//SSE utility function
static inline __m128 mulk_SSE(__m128 const &a, float k)
{
    return _mm_mul_ps(_mm_set1_ps(k),a);
}

//main function
void foo(float *x, float *y n) 
{
    for(int i=0; i<n; i+=4)
        __m128 t1 = _mm_loadu_ps(x[i]);
        __m128 t2 = mulk_SSE(x4,3.14159f);
        _mm_store_ps(&y[i], t2);
    }
}

使用 const 引用的原因是 MSVC 不能按值传递 __m128。没有 const 引用你会得到一个错误

error C2719: formal parameter with __declspec(align('16')) won't be aligned.

__m128 无论如何，MSVC 确实是一个 union 体。

typedef union __declspec(intrin_type) _CRT_ALIGN(16) __m128 {
     float               m128_f32[4];
     unsigned __int64    m128_u64[2];
     __int8              m128_i8[16];
     __int16             m128_i16[8];
     __int32             m128_i32[4];
     __int64             m128_i64[2];
     unsigned __int8     m128_u8[16];
     unsigned __int16    m128_u16[8];
     unsigned __int32    m128_u32[4];
 } __m128;

当 SSE 实用函数被内联时，大概 MSVC 不必加载 union 。

根据 OP 的最新代码更新，这是我的建议

#include <x86intrin.h>
struct Vector4 {
    __m128 data;
    Vector4() {
    }
    Vector4(__m128 const &v) {
        data = v;
    }
    Vector4 & load(float const *x) {
        data = _mm_loadu_ps(x);
        return *this;
    }
    void store(float *x) const {
        _mm_storeu_ps(x, data);
    }
    operator __m128() const {
        return data;
    }
};

static inline Vector4 operator + (Vector4 const & a, Vector4 const & b) {
    return _mm_add_ps(a, b);
}

static inline Vector4 operator - (Vector4 const & a, Vector4 const & b) {
    return _mm_sub_ps(a, b);
}

struct Foobar {
    float a[4];
    float b[4];
    int c;
};

int main(void)
{
    Foobar myArray[10];
    // note that myArray[0].a, myArray[0].b, and myArray[1].b should be      // initialized before doing the following 
    Vector4 a0 = Vector4().load(myArray[0].a);
    Vector4 b0 = Vector4().load(myArray[0].b);
    Vector4 a1 = Vector4().load(myArray[1].a);        
    (a0 + b0 - a1).store(myArray[1].b);
}

此代码基于 Agner Fog 的 Vector Class Library 的想法.

关于c++ - 如何指示编译器为 __m128 生成未对齐的加载，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33889381/

30

4

0

文章推荐： javascript - 脚本标签正在从文件 :///instead of http://加载

文章推荐： android - WebView提取和编辑html

文章推荐： performance - 使用 websockets 构建整个网站？重访

c++ - 内存对齐 - Sparc(Sun) cc 编译器、Intel(Linux) g++ 编译器、Intel(Windows) MVSC 编译器
我的问题由两部分组成。我注意到使用 cc 编译器的 sparc(sun) 上的 memalign(block_size,bytes) 不检查字节是否为 2 的幂，这与使用 mvsc 编译器的 int
c# - 什么是好的 C# 编译器-编译器/解析器生成器？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 6 年前。
java - Maven 无法定位 Javac 编译器 - 无法在 : 中定位 Javac 编译器
当我尝试在我的 gwt-maven Projekt 上进行 maven-install 时，我得到了这个错误: [ERROR] Failed to execute goal org.apache.ma
c# - 如何使用 csc(C# 编译器)或 dmcs(mono C# 编译器)生成 IL 源代码？
gcc 有一个选项 -s 来生成汇编源代码。 csc(MS C# 编译器)或 dmcs(mono C# 编译器)是否等价？我的意思是那些编译器是否提供了一个选项来生成可以读取而不是执行二进制文件的 I
c - Matlab simulink 无法找到 Stateflow 和 MATLAB Function 模块所需的 C 编译器。使用 'mex -setup' 选择支持的 C 编译器
我在 matlab simulink 中有一个模型。我把matlab安装在D盘了。当我运行模型时，出现以下错误: Unable to locate a C-compiler required by S
c++ - Visual Studio 2012 : Compiler setup (possible to use Compiler from SDK eg. VC++2008-编译器 VC++2010-编译器)
我非常喜欢 Visual Studio 2012，因为 GUI 非常快速和灵活。问题是我需要 VS2010 的 VC++-Compiler。在 VS 2012 中设置旧的编译器、SDK 有什么可能吗？
编译器/语言运行时与中间件
就目前情况而言，这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放，visit
"if"语句的代码生成 - 编译器
我正在为类似 C 的语言开发编译器，但在语义分析和代码生成阶段遇到了一些困难。我的问题如下:1) 对于 if 语句，语法如下: if (expression) then statement1; sta
PHP解释器/编译器
我想了解 php 编译器/解释器的工作原理。我试图下载 php 源代码并试图了解它是如何工作的。我找不到合适的文档。如果有人可以阐明制作 php 编译器的模块以及 apache 服务器如何使用 ph
python 编译器
我有一些关于 python 的问题为什么没有 python 编译器来创建本地代码？我找到了 py2exe 等，但它们只是随附了一个 python 解释器，因此，它又是执行代码的解释器。是否无法创建
Java虚拟机JVM性能优化（二）:编译器
本文将是JVM 性能优化系列的第二篇文章(第一篇：传送门)，Java 编译器将是本文讨论的核心内容。本文中，作者（Eva Andreasson）首先介绍了不同种类的编译器，并对客户端编译，服务器
flash - ActionScript 编译器
在 *nix 之类的系统或适当的工具包下是否有任何用于 ActionScript 3 的编译器来处理 Flash？最佳答案 Flex SDK编译器 — mxmlc — 还将编译普通的 ActionS
cmake - 让CMake不检测C++编译器
我正在做一个C项目。但是其他人告诉我，由于没有C++编译器，所以无法构建它。我不知道如何禁用C++的检测。这该怎么做？最佳答案检测C和C++工具链是CMake的默认行为。要禁用此行为，您需要手动
用于数学的 JIT 编译器
我正在寻找可以嵌入到我的程序中的 JIT 编译器或小型编译器库。我打算用它来编译动态生成的执行复数运算的代码。生成的代码在结构上非常简单:没有循环，没有条件，但它们可能很长(由 GCC 编译时只有几
.NET 编译器——调试与发布
多年来，我一直在 VB.NET 中使用 DEBUG 编译器常量将消息写入控制台。我也一直在以类似的方式使用 System.Diagnostics.Debug.Write。我一直认为，当 RELEASE
architecture - 编译器——前端后端
我了解编译器的前端和后端结构。但是，我不确定为什么编译器经常分为前端和后端。我相信有很多原因，你能给我几个吗？因为，大多数书籍/网站会告诉您它们是什么，但无法告诉您原因! 谢谢你。最佳答案前端处理
Javascript 编译器/依赖管理器？
我有很多 JS 文件。其中一些相互依赖。其中许多依赖于 jQuery。我需要一种工具，它可以接受一个文件作为参数，传递地获取其所有依赖项，并以正确的顺序将它们编译成一个文件(基于依赖项) 依赖信息并不
parsing - 编译器，找到语法的第一组
我正在阅读著名的紫龙书第二版，但无法从第 65 页获取有关创建第一组的示例: 我们有以下语法(终端以粗体显示): stmt → expr; | if ( expr ) stmt | for ( opt
C#(仅限语言)编译器
我正在寻找将 C# 语法编译为 native 代码(或者可能编译为 C++？)的选项。我对拥有正式成为该语言一部分的所有库不感兴趣，只是能够像编写 C++ 程序一样编写程序，但使用语言结构，例如部分类
编译器 -march 标志基准测试？
编译器(例如:gcc)中的 -march 标志真的很重要吗？如果我使用 -march=my_architecture 而不是 -march=i686 编译所有程序和内核，会不会更快最佳答案是的，

首页

博学

6Ren·AI

商城

c++ - 如何指示编译器为 __m128 生成未对齐的加载