gpt4 book ai didi

c++ - 两个 SSE2 打包 double 的最优无分支条件选择

转载 作者:行者123 更新时间:2023-11-30 01:40:00 25 4
gpt4 key购买 nike

我正在尝试为打包的 SSE2 double 编写无分支位 select 函数:

#include <iostream>
#include <emmintrin.h>

inline __m128d select(bool expression, const __m128d& x, const __m128d& y)
{
const int conditional_mask = expression ? -1 : 0;

const auto mask = _mm_castsi128_pd(_mm_set_epi64x(conditional_mask, conditional_mask));

return _mm_or_pd(_mm_and_pd(mask, x), _mm_andnot_pd(mask, y));
}

int main()
{
auto r1 = _mm_setr_pd(1, 2);
auto r2 = _mm_setr_pd(5, 6);

auto result = select(true, r1, r2);

auto packed = reinterpret_cast<double*>(&result);

std::cout << "result = " << packed[0] << ", " << packed[1] << std::endl;
std::getchar();

return EXIT_SUCCESS;
}

是否有更简单的 SSE2 和 SSE4 方法在 x64 上更优化?

最佳答案

您已指定允许 SSE4,SSE4.1 具有 blendvpd,因此您可以使用内置混合进行混合:(未测试,但已编译)

inline __m128d select(bool expression, const __m128d& x, const __m128d& y)
{
const int c_mask = expression ? -1 : 0;
const auto mask = _mm_castsi128_pd(_mm_set_epi64x(c_mask, c_mask));
return _mm_blendv_pd(y, x, mask);
}

我也不会通过引用将 SSE vector 作为参数,复制它们是微不足道的,所以不能避免,通过引用来获取它们会鼓励编译器通过内存反弹它们(对于非内联调用)。

关于c++ - 两个 SSE2 打包 double 的最优无分支条件选择,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44303927/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com