gpt4 book ai didi

c++ - 使用 AVX2 和范围保存的按位类型转换

转载 作者:太空宇宙 更新时间:2023-11-04 13:21:12 28 4
gpt4 key购买 nike

我想将 signed char vector 转换为 unsigned char vector 。我想保留每种类型的值范围。

我的意思是,当 unsigned char 元素的值范围在 0 - 255 之间时,signed char 的值范围是 -128 和 +127。

没有内在函数,我几乎可以这样做:

#include <iostream>

int main(int argc,char* argv[])
{

typedef signed char schar;
typedef unsigned char uchar;

schar a[]={-1,-2,-3,4,5,6,-7,-8,9,10,-11,12,13,14,15,16,17,-128,19,20,21,22,23,24,25,26,27,28,29,30,31,32};

uchar b[32] = {0};

for(int i=0;i<32;i++)
b[i] = 0xFF & ~(0x7F ^ a[i]);

return 0;

}

所以我使用 AVX2 编写了以下程序:

#include <immintrin.h>
#include <iostream>

int main(int argc,char* argv[])
{
schar a[]={-1,-2,-3,4,5,6,-7,-8,9,10,-11,12,13,14,15,16,17,-128,19,20,21,22,23,24,25,26,27,28,29,30,31,32};

uchar b[32] = {0};

__m256i _a = _mm256_stream_load_si256(reinterpret_cast<const __m256i*>(a));
__m256i _b;
__m256i _cst1 = _mm256_set1_epi8(0x7F);
__m256i _cst2 = _mm256_set1_epi8(0xFF);

_a = _mm256_xor_si256(_a,_cst1);
_a = _mm256_andnot_si256(_cst2,_a);

// The way I do the convertion is inspired by an algorithm from OpenCV.
// Convertion from epi8 -> epi16
_b = _mm256_srai_epi16(_mm256_unpacklo_epi8(_mm256_setzero_si256(),_a),8);
_a = _mm256_srai_epi16(_mm256_unpackhi_epi8(_mm256_setzero_si256(),_a),8);

// convert from epi16 -> epu8.
_b = _mm256_packus_epi16(_b,_a);

_mm256_stream_si256(reinterpret_cast<__m256i*>(b),_b);

return 0;
}

当我显示变量 b 时,它完全是空的。我还检查以下情况:

   #include <immintrin.h>
#include <iostream>

int main(int argc,char* argv[])

{
schar a[]={-1,-2,-3,4,5,6,-7,-8,9,10,-11,12,13,14,15,16,17,-128,19,20,21,22,23,24,25,26,27,28,29,30,31,32};

uchar b[32] = {0};

__m256i _a = _mm256_stream_load_si256(reinterpret_cast<const __m256i*>(a));
__m256i _b;
__m256i _cst1 = _mm256_set1_epi8(0x7F);
__m256i _cst2 = _mm256_set1_epi8(0xFF);


// The way I do the convertion is inspired by an algorithm from OpenCV.
// Convertion from epi8 -> epi16
_b = _mm256_srai_epi16(_mm256_unpacklo_epi8(_mm256_setzero_si256(),_a),8);
_a = _mm256_srai_epi16(_mm256_unpackhi_epi8(_mm256_setzero_si256(),_a),8);

// convert from epi16 -> epu8.
_b = _mm256_packus_epi16(_b,_a);

_b = _mm256_xor_si256(_b,_cst1);
_b = _mm256_andnot_si256(_cst2,_b);


_mm256_stream_si256(reinterpret_cast<__m256i*>(b),_b);

return 0;
}

和:

 #include <immintrin.h>
#include <iostream>

int main(int argc,char* argv[])

{
schar a[]={-1,-2,-3,4,5,6,-7,-8,9,10,-11,12,13,14,15,16,17,-128,19,20,21,22,23,24,25,26,27,28,29,30,31,32};

uchar b[32] = {0};

__m256i _a = _mm256_stream_load_si256(reinterpret_cast<const __m256i*>(a));
__m256i _b;
__m256i _cst1 = _mm256_set1_epi8(0x7F);
__m256i _cst2 = _mm256_set1_epi8(0xFF);


// The way I do the convertion is inspired by an algorithm from OpenCV.
// Convertion from epi8 -> epi16
_b = _mm256_srai_epi16(_mm256_unpacklo_epi8(_mm256_setzero_si256(),_a),8);
_a = _mm256_srai_epi16(_mm256_unpackhi_epi8(_mm256_setzero_si256(),_a),8);

_a = _mm256_xor_si256(_a,_cst1);
_a = _mm256_andnot_si256(_cst2,_a);

_b = _mm256_xor_si256(_b,_cst1);
_b = _mm256_andnot_si256(_cst2,_b);

_b = _mm256_packus_epi16(_b,_a);

_mm256_stream_si256(reinterpret_cast<__m256i*>(b[0]),_b);

return 0;
}

我的调查显示部分问题与 and_not 操作有关。但我不明白为什么。

变量 b 应包含以下序列:[127、126、125、132、133、134、121、120、137、138、117、140、141、141、142、142、143、144、145、147、147、148、148、149、149、150、151、151、152、152、153 , 154, 155, 156, 157, 158, 159, 160]。

在此先感谢您的帮助。

最佳答案

您只是在谈论将 128 添加到每个字节,对吗?这会将范围从 [-128..127] 转移到 [0..255]。当您只能使用 8 位操作数时,加 128 的技巧是减去 -128。

但是,当结果被截断为 8 位时,添加 0x80 也同样有效。 (因为补码)。添加很好,因为操作数的顺序无关紧要,因此编译器可以使用加载和添加指令(将内存操作数折叠到加载中)。

加法/减法 -128,进位/借位由元素边界停止,等同于 xor(也称为无进位加法)。使用 pxor 可能是通过 Broadwell 在 Intel Core2 上的一个小优势,因为 Intel 一定认为在端口 0 上为 Skylake 添加 paddb/w/d/q 硬件是值得的(每 0.333c 吞吐量给他们一个,如 pxor)。 (感谢@harold 指出这一点)。两条指令都只需要 SSE2。

XOR 也可能对 SWAR 有用未对齐清理,或用于没有字节大小加/减操作的 SIMD 架构。


你不应该使用 _a 作为你的变量名。 _ 名称是保留的。我倾向于使用 vecava 之类的名称,最好是对临时对象更具描述性的名称。 (如 a_unpacked)。

__m256i signed_bytes = _mm256_loadu_si256(reinterpret_cast<const __m256i*>(a));
__m256i unsigned_bytes = _mm256_add_epi8(signed_bytes, _mm256_set1_epi8(-128));

是的,就是这么简单,您不需要二进制补码。一方面,您的方式需要两个单独的 32B 掩码,这会增加您的缓存占用空间。 (但请参阅 What are the best instruction sequences to generate vector constants on the fly? 您(或编译器)可以使用 3 条指令生成 -128 字节的 vector ,或者从 4B 常量进行广播加载。)


仅将 _mm256_stream_load_si256 用于 I/O(例如从视频 RAM 读取)。不要用它来读取“正常”(回写)内存;它不做你认为它做的事。 (不过,我认为它没有任何特别的缺点。它就像正常的 vmovdqa 加载一样工作)。我在 another answer I wrote recently 中放置了一些相关链接.

流式存储 对普通(回写)内存区域很有用。但是,您不打算很快再次阅读该内存时,它们是个好主意。如果是这种情况,您可能应该在读取此数据的代码中即时执行从有符号到无符号的转换,因为它非常便宜。只需将您的数据保留为一种格式或另一种格式,然后在需要它的代码中即时转换为另一种格式。与在某些循环中保存一条指令相比,在缓存中只需要它的一个拷贝是一个巨大的胜利。

还可以在谷歌上搜索“缓存阻塞”(又名循环平铺)并阅读有关优化代码以在小块中工作以增加计算密度的信息。 (尽可能多地处理缓存中的数据。)

关于c++ - 使用 AVX2 和范围保存的按位类型转换,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35191398/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com