c - 如何使用 128 位 C 变量和 xmm 128 位 asm？-6ren

c - 如何使用 128 位 C 变量和 xmm 128 位 asm？

转载作者：太空狗更新时间：2023-10-29 16:46:31

26

4

在 gcc 中，我想通过 asm 代码对 2 个 C 变量执行 128 位 xor:怎么做？

asm (
    "movdqa %1, %%xmm1;"
    "movdqa %0, %%xmm0;"
     "pxor %%xmm1,%%xmm0;"
     "movdqa %%xmm0, %0;"

    :"=x"(buff) /* output operand */
    :"x"(bu), "x"(buff)
    :"%xmm0","%xmm1"
    );

但是我有一个段错误；这是 objdump 输出:

movq   -0x80(%rbp),%xmm2

movq   -0x88(%rbp),%xmm3

movdqa %xmm2,%xmm1

movdqa %xmm2,%xmm0

pxor   %xmm1,%xmm0

movdqa %xmm0,%xmm2

movq   %xmm2,-0x78(%rbp)

最佳答案

如果变量不是 16 字节对齐的，您会看到段错误问题。 The CPU can't MOVDQA to/from unaligned memory addresses ，并会生成处理器级“GP 异常”，提示操作系统对您的应用进行段错误。

您在堆上声明(堆栈、全局)或分配的 C 变量通常不会与 16 字节边界对齐，尽管偶尔您可能会偶然得到一个对齐的。您可以使用 __m128 或 __m128i 数据类型指示编译器确保正确对齐。其中每一个都声明了一个正确对齐的 128 位值。

此外，阅读 objdump，看起来编译器用代码包装了 asm 序列，使用 MOVQ 指令将操作数从堆栈复制到 xmm2 和 xmm3 寄存器，只是让你的 asm 代码然后将值复制到 xmm0和 xmm1。异或到 xmm0 后，包装器仅将结果复制到 xmm2，然后再将其复制回堆栈。总的来说，效率不是很高。 MOVQ 一次复制 8 个字节，and expects (under some circumstances), an 8-byte aligned address .获取未对齐的地址，它可能会像 MOVDQA 一样失败。然而，包装器代码向 BP 寄存器添加对齐偏移量(-0x80、-0x88 和后来的 -0x78)，它可能包含也可能不包含对齐值。总的来说，生成的代码不保证对齐。

以下确保参数和结果存储在正确对齐的内存位置，并且看起来工作正常:

#include <stdio.h>
#include <emmintrin.h>

void print128(__m128i value) {
    int64_t *v64 = (int64_t*) &value;
    printf("%.16llx %.16llx\n", v64[1], v64[0]);
}

void main() {
    __m128i a = _mm_setr_epi32(0x00ffff00, 0x00ffff00, 0x00ffff00, 0x10ffff00), /* low dword first! */
            b = _mm_setr_epi32(0x0000ffff, 0x0000ffff, 0x0000ffff, 0x0000ffff),
            x;

    asm (
        "movdqa %1, %%xmm0;"      /* xmm0 <- a */
        "movdqa %2, %%xmm1;"      /* xmm1 <- b */
        "pxor %%xmm1, %%xmm0;"    /* xmm0 <- xmm0 xor xmm1 */
        "movdqa %%xmm0, %0;"      /* x <- xmm0 */

        :"=x"(x)          /* output operand, %0 */
        :"x"(a), "x"(b)   /* input operands, %1, %2 */
        :"%xmm0","%xmm1"  /* clobbered registers */
    );

    /* printf the arguments and result as 2 64-bit hex values */
    print128(a);
    print128(b);
    print128(x);
}

用(gcc，ubuntu 32 位)编译

gcc -msse2 -o app app.c

输出:

10ffff0000ffff00 00ffff0000ffff00
0000ffff0000ffff 0000ffff0000ffff
10ff00ff00ff00ff 00ff00ff00ff00ff

在上面的代码中，_mm_setr_epi32 用于用 128 位值初始化 a 和 b，因为编译器可能不支持 128 位整数文字。

print128 写出 128 位整数的十六进制表示，因为 printf 可能无法这样做。

以下内容较短，避免了一些重复复制。编译器添加了它的隐藏包装 movdqa，使 pxor %2,%0 神奇地工作，而无需您自己加载寄存器:

#include <stdio.h>
#include <emmintrin.h>

void print128(__m128i value) {
    int64_t *px = (int64_t*) &value;
    printf("%.16llx %.16llx\n", px[1], px[0]);
}

void main() {
    __m128i a = _mm_setr_epi32(0x00ffff00, 0x00ffff00, 0x00ffff00, 0x10ffff00),
            b = _mm_setr_epi32(0x0000ffff, 0x0000ffff, 0x0000ffff, 0x0000ffff);

    asm (
        "pxor %2, %0;"    /* a <- b xor a  */

        :"=x"(a)          /* output operand, %0 */
        :"x"(a), "x"(b)   /* input operands, %1, %2 */
        );

    print128(a);
}

像以前一样编译:

gcc -msse2 -o app app.c

输出:

10ff00ff00ff00ff 00ff00ff00ff00ff

或者，如果您想避免内联汇编，您可以使用 SSE intrinsics instead (PDF)。这些是内联函数/宏，它们使用类似 C 的语法封装了 MMX/SSE 指令。 _mm_xor_si128 将您的任务减少到一次调用:

#include <stdio.h>
#include <emmintrin.h>

void print128(__m128i value) {
    int64_t *v64 = (int64_t*) &value;
    printf("%.16llx %.16llx\n", v64[1], v64[0]);
}

void main()
{
    __m128i x = _mm_xor_si128(
        _mm_setr_epi32(0x00ffff00, 0x00ffff00, 0x00ffff00, 0x10ffff00), /* low dword first !*/
        _mm_setr_epi32(0x0000ffff, 0x0000ffff, 0x0000ffff, 0x0000ffff));

    print128(x);
}

编译:

gcc -msse2 -o app app.c

输出:

10ff00ff00ff00ff 00ff00ff00ff00ff

关于c - 如何使用 128 位 C 变量和 xmm 128 位 asm？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1990266/

26

4

0

文章推荐： html - 选择最后一个连续的 sibling

文章推荐： javascript - 用 D3 和 Leaflet 重复 SVG

delphi - 将 ASM 与非 asm 代码组合(或需要 SwapInt64 ASM 函数)
我需要处理来自旧 Mac 时代(旧摩托罗拉 CPU)的文件。字节是大端字节序，所以我有一个函数可以将 Int64 交换为英特尔小端字节序。该函数是 ASM，可在 32 位 CPU 上运行，但不能在 6
【ASM】史上最通俗易懂的ASM教程 ASM 插件
1.概述转载：史上最通俗易懂的ASM教程一勺思想 We are all in the gutter, but some of us are looking at the stars. （我们都生活
【ASM】ASM 与 Presto 动态代码生成简介
1.概述转载：ASM 与 Presto 动态代码生成简介代码生成是很多计算引擎中常用的执行优化技术，比如我们熟悉的 Apache Spark 和 Presto 在表达式等地方就使用到代码生成技术。
function - ASM , 用 asm 调用函数
我想在 C++ 程序中使用 ASM 调用地址为 774a7fdch 的函数(kernel32.dll 函数) 我正在使用 Visual Studio 2010。我该怎么做？ call 774a7fd
c++ - VS C++ ASM 到 GCC ASM
我是否正确转换了它？原始 VS C++ 版本: _TEB *pTeb = NULL; _asm { mov eax, fs:[0x18];
linux - linux/include/asm 中的 asm 代表什么
阅读自howto_add_systemcall "In general, header files for machine architecture independent system calls
c - asm、asm volatile 和 clobbering 内存之间的区别
在实现无锁数据结构和时序代码时，通常需要抑制编译器的优化。通常人们使用 asm volatile 和 clobber 列表中的 memory 来执行此操作，但有时您只会看到 asm volatile
c - gcc : ‘asm’ operand has impossible constraints 中的扩展 asm
这个“strcpy”函数的目的是将src的内容复制到dest，结果很好:显示两行“Hello_src”。 #include static inline char * strcpy(char * de
c - asm 语法高亮和 asm 文件在 Visual Studio 中显示
我正在尝试进行一些汇编编码，我从 C 语言调用函数。代码本身运行良好，但我有两个巨大的问题在很长一段时间内无法解决。第一个是语法高亮 - 我安装了两个不同的(当时一个)asm 高亮扩展到 Visual
Java、ASM : How to Get Opcode Name and TagValue from ASM InsnNode?
我正在研究一些类文件分析，并且正在研究使用 ASM 来读取类。在 Javap 中，操作码以及 tagName 和 tagValue 是内联打印的，但在每个 AbstractInsnNode 中，我只看
c++ - 内联 ASM C++ 中的 DB ASM 变量
我正在尝试弄清楚如何将 ASM 中的 DB 变量用于内联 ASM C++ 我有这个 ASM 代码: filename db "C:\imagen.bmp" eti0: mov ah,3dh mov a
c - gcc : ‘asm’ operand has impossible constraints 中的扩展 asm
这个“strcpy”函数的目的是将src的内容复制到dest，结果很好:显示两行“Hello_src”。 #include static inline char * strcpy(char * de
linux-kernel - 在 linux 内核中，asm 还是 asm-generic？
在 mm/memory.c 中，它包含一个文件: #include tlb.h 是 include/asm-generic/tlb.h或 arch/arm/include/asm/tlb.h ? 最
c++ - C++ 项目中的 ASM ...这个小 asm 代码在 C++ 中的表现如何
你好我找到了一个asm代码......它被集成到c++项目中 template T returned; BYTE *tem = buffer; __asm { mov eax, tem
TASM 找不到 .asm 文件错误 : **Fatal** Command line: Can't locate file: filename. asm
问题:当我运行 @ 命令提示符 >tasm HelloWorld.asm 顺便说一句，我在输入文件名 HelloWorld.asm 时使用 TAB，所以没有错字.我收到这个致命的命令行错误: Turb
c - 8086/386 asm 与 bcc5 : returning long int from asm proc
尝试通过 eax 从 asm proc 返回一个 long int，后来又尝试通过 dx:ax。两者都不适合我，因为 C printf 打印的数字与所需的 320L 不同。 x.asm: .model
c++ - 为什么 godbolt 生成的 asm 输出与我在 Visual Studio 中的实际 asm 代码不同？
这是 godbolt 生成的代码. 下面是 Visual Studio 在我的 main.asm 文件上生成的相同代码(通过 Project->C/C++->Output Files->Assembl
maven-2 - Maven 3 警告 : Failure to transfer asm:asm/maven-metadata. xml
在构建具有依赖项的 giraph jar 时，我们收到以下警告.. 真的不知道如何解决这些.. 我们已经尝试过了 useProjectArtifact 为 false 和解压为真两者似乎都有效任
c - "#include "导致 "error: asm/io.h: No such file or directory"
我正在使用 gentoo 并尝试编译一个程序来控制并行端口上的位。它的顶部附近有这条线: #include 当我尝试在其上使用 gcc 时，它会产生以下输出: port.c:4:20: error:
java - Jersey + hibernate = NoSuchMethodError : org. objectweb.asm.ClassReader.accept(Lorg/objectweb/asm/ClassVisitor
(原帖)将 hibernate 依赖项添加到 pom.xml 时显示错误 2011-10-11 10:36:53.710::WARN: failed guiceFilter java.lang.No

首页

博学

6Ren·AI

商城

c - 如何使用 128 位 C 变量和 xmm 128 位 asm？