gpt4 book ai didi

c++内联函数在GCC内联汇编中包装单个vmovups

转载 作者:行者123 更新时间:2023-11-30 01:48:50 25 4
gpt4 key购买 nike

我正在尝试解决 clang 编译器中的一个明显错误,该错误使用 AVX 内部 _mm256_loadu_ps 会导致在汇编中输出不必要的指令。特别是,它首先对输入 vector 的前半部分执行 vmovups 并将其放入 xmm 寄存器,然后使用 vinsertf128 指令将后半部分与前半部分连接起来,这会稍微减慢程序速度。相反,我希望对编译器分配的 ymm 寄存器有一条 vmovups 指令。

我一直对 SSE/AVX 内在函数感到满意,但一旦我需要下降到内联汇编,我就迷路了。

我想要一个与以下功能相同的内联函数,但 vmovups 应该在内联汇编中。

inline __mm256 V8fLoadU(const float* pf)
{
return _mm256_loadu_ps(pf);
}

到目前为止,这是我尝试过的方法,但它不起作用(似乎将 *pf 单个 float 移动到堆栈上,然后加载该空间):

inline __mm256 V8fLoadU(const float* pf)
{
__m256 m;
__asm__("vmovups %1, %0" : "=x" (m) : "xm" (pf));
return m;
}

提前致谢。

最佳答案

通过传递一个指针作为输入参数,您加载的是指针的值而不是它指向的内容。您需要传递要加载的值。

__m256 V8fLoadU(const float* pf)
{
__m256 m;
__asm__("vmovups %1, %0" : "=x" (m) : "m" (*pf));
return m;
}

关于c++内联函数在GCC内联汇编中包装单个vmovups,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29860866/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com