gpt4 book ai didi

c++ - 使用 SIMD 查找表

转载 作者:IT老高 更新时间:2023-10-28 22:59:30 37 4
gpt4 key购买 nike

我有一个大像素处理函数,我目前正在尝试使用内部函数进行优化。

作为 SSE 新手,我不知道如何处理涉及查找表的代码部分。

基本上,我正在尝试对以下 vanilla C++ 代码进行矢量化:

 //outside loop
const float LUT_RATIO = 1000.0F;

//in loop
float v = ... //input value
v = myLookupTable[static_cast<int>(v * LUT_RATIO)];

我正在尝试什么:

//outside loop
const __m128 LUT_RATIO = _mm_set1_ps(1000.0F);

//in loop
__m128 v = _mm_set_ps(v1, v2, v3, v4); //input values
__m128i vI = _mm_cvtps_epi32(_mm_mul_ps(v, LUT_RATIO)); //multiply and convert to integers
v = ??? // how to get vI indices of myLookupTable?

edit:ildjarn 提出了一个需要我澄清的观点。我不是想加快查找表代码的速度,我只是想避免将寄存器存储回专门用于查找的 float ,因为这部分夹在理论上可以从 SSE 中受益的两个其他部分之间。

最佳答案

如果您可以等到明年,那么英特尔的 Haswell CPU 将配备 AVX2,其中包括用于收集负载的指令。这使您能够执行例如在一条指令中进行 8 次并行 LUT 查找(参见例如 VGATHERDPS)。除此之外,你运气不好,除非你的 LUT 非常小(例如 16 个元素),在这种情况下你可以使用 PSHUFB

关于c++ - 使用 SIMD 查找表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10590798/

37 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com