c++ - 英特尔 AVX : 256-bits version of dot product for double precision floating point variables-6ren

c++ - 英特尔 AVX : 256-bits version of dot product for double precision floating point variables

转载作者：IT老高更新时间：2023-10-28 13:00:03

25

4

英特尔高级 vector 扩展 (AVX) 在 256 位版本(YMM 寄存器)中不为 double 浮点变量提供点积。 “为什么？”这个问题在另一个论坛 (here) 和 Stack Overflow (here) 上得到了非常简短的处理。但我面临的问题是如何以有效的方式用其他 AVX 指令替换这条缺失的指令？

256 位版本中的点积适用于单精度浮点变量 (reference here):

 __m256 _mm256_dp_ps(__m256 m1, __m256 m2, const int mask);

我们的想法是为这个缺失的指令找到一个有效的等价物:

 __m256d _mm256_dp_pd(__m256d m1, __m256d m2, const int mask);

更具体地说，我想将 __m128(四个 float )转换为 __m256d(4 个 double )的代码使用以下说明:

   __m128 val0 = ...; // Four float values
   __m128 val1 = ...; //
   __m128 val2 = ...; //
   __m128 val3 = ...; //
   __m128 val4 = ...; //

   __m128 res = _mm_or_ps( _mm_dp_ps(val1,  val0,   0xF1),
                _mm_or_ps( _mm_dp_ps(val2,  val0,   0xF2),
                _mm_or_ps( _mm_dp_ps(val3,  val0,   0xF4),
                           _mm_dp_ps(val4,  val0,   0xF8) )));

这段代码的结果是一个由四个 float 组成的 _m128 vector ，其中包含 val1 和 val0 之间的点积结果，val2 和 val0、val3 和 val0、val4 和 val0.

也许这可以为建议提供提示？

最佳答案

我会使用 4*double 乘法，然后是 hadd(不幸的是，它只在上下半部分添加了 2*2 float )，提取上半部分(随机播放应该同样有效，也许更快)并将其添加到下半部分。

结果在dotproduct的低64位。

__m256d xy = _mm256_mul_pd( x, y );
__m256d temp = _mm256_hadd_pd( xy, xy );
__m128d hi128 = _mm256_extractf128_pd( temp, 1 );
__m128d dotproduct = _mm_add_pd( (__m128d)temp, hi128 );

编辑:
根据 Norbert P 的想法，我扩展了这个版本，一次做 4 个点积。

__m256d xy0 = _mm256_mul_pd( x[0], y[0] );
__m256d xy1 = _mm256_mul_pd( x[1], y[1] );
__m256d xy2 = _mm256_mul_pd( x[2], y[2] );
__m256d xy3 = _mm256_mul_pd( x[3], y[3] );

// low to high: xy00+xy01 xy10+xy11 xy02+xy03 xy12+xy13
__m256d temp01 = _mm256_hadd_pd( xy0, xy1 );   

// low to high: xy20+xy21 xy30+xy31 xy22+xy23 xy32+xy33
__m256d temp23 = _mm256_hadd_pd( xy2, xy3 );

// low to high: xy02+xy03 xy12+xy13 xy20+xy21 xy30+xy31
__m256d swapped = _mm256_permute2f128_pd( temp01, temp23, 0x21 );

// low to high: xy00+xy01 xy10+xy11 xy22+xy23 xy32+xy33
__m256d blended = _mm256_blend_pd(temp01, temp23, 0b1100);

__m256d dotproduct = _mm256_add_pd( swapped, blended );

关于c++ - 英特尔 AVX : 256-bits version of dot product for double precision floating point variables，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10454150/

25

4

0

文章推荐： mysql - 如何在 MySQL 中存储 unicode？

文章推荐： android - 这是什么意思: Failure [INSTALL_FAILED_CONTAINER_ERROR]?

c - `double(double)` 和 `double (*)(double)` 有什么区别
下面的代码有效，我觉得double(double)和double(*)(double)没有区别，square和 &square，我说得对吗？ #include double square(doubl
c++ - 错误 : cannot convert 'double' to 'double(double, double, double)' in assignment
我知道我的作业很草率，这是我在这门课上的第 4 次作业。任何帮助将不胜感激，谢谢。 double getPrincipal(0); double getRate(0); double getYe
c++ - 错误 : cannot convert 'double (evaluator::*)(double, double)' to 'double (*)(double, double)' in assignment
我遇到了那个错误，当我使用类时，我在使用函数指针时遇到了这个错误。我的函数'ope'函数我该如何解决 evaluator::function(){ double (*ope) (dou
java - 用 drawLine(double, double, double, double) 扩展图形类
问题://故事从哪里开始 Graphics 类型中的方法 drawLine(int, int, int, int) 不适用于参数 (double, double, double, double) g.
c++ - 将 map> 复制到 map 没有循环？
我有一张 map> m1 形式的 map .我可以将其复制到 map m2 形式的 map 吗？这样键是相同的，并且 m2 中的值是 get(m1->second) 不使用循环？谢谢! 最佳答案这样
c++ 将 vector> 转换为 double*, double*?
有没有办法获取vector> 的“.first”和“.second”的连续内存？？我的意思是: void func(int N, double* x, double* y) { for (i
c++ - 'std::function’ 到 ‘double (*)(double)’ 之间的转换
我正在尝试将自定义 lambda 传递给需要函数指针的函数(更准确地说是 zero 中的 Brent library 函数)。我的想法是，我将使用参数创建一次 lambda，然后用多个值对其求值 x
c++ - 找不到 sin(double)、sin(double&)、cos(double)、cos(double&)
这是一个很简单的问题，让我很困惑。我收到一个源文件的以下错误，但另一个没有: 4 src/Source2.cpp:1466: error: no matching function for cal
swift - 无法将类型 '(CalculatorBrain) -> (Double) -> Double' 的值转换为预期的参数类型 '(Double) -> Double'
struct CalculatorBrain { private var accumulator: Double? func changeSign(operand: Double) -
c++ - 未定义模板的隐式实例化 'std::__1::function'
在我正在进行的项目中，我尝试使用 curlpp库来发出一个简单的 html GET 请求。当我将 cpp 文件传递给 g++ 时，出现以下错误: /usr/local/include/curlpp
double - 扩展的 double
不使用double就能获得quadruple精度超过16位的数字吗？如果可能的话，这取决于编译器还是其他？因为我知道有人说他使用double精度，并且具有22位精度。最佳答案数据类型double
double - 特斯拉 double
我正在寻找有关特斯拉 GPU 中硬件如何实现 double 的信息。我读到，两个流处理器正在处理单个 double 值，但我没有找到 nvidia 的任何官方论文。提前致谢。聚苯硫醚为什么大多数 G
c++ - 错误 : cannot convert ‘’ to ‘double (*)(double)’
这个问题在这里已经有了答案: Passing capturing lambda as function pointer (10 个答案) 关闭 2 年前。我有这个错误 error: cannot
c# - 元组列表。逗号而不是 double 值中的点
情况:我有一个元组列表，其中添加了一个元组: List> list = new List>(); list .Add(new Tuple(2.2, 6.6)); 一切似乎都还好。但是......在 D
java - 无法在基本类型 double 上调用 set Double(Double)
我有一个 JList，里面有一堆名字，还有一个包含这些名字值的数组 final Double[] filmcost = { 5.00, 5.50, 7.00, 6.00, 5.00 }; 我想做的是，
c++ - 二进制表达式 ('double(*)(double' 和 'double' 的无效操作数)
我试图找出牛顿法来求方程的根。这个错误出来了，我无法处理。 double fn(double n){ return sin(n)+log(n)-1; } double f1n(double n
java - assertEquals(Double, Double) 和 assertEquals(double, double, delta) 之间的 Junit 区别
我有一个 junit 测试断言两个 Double 对象，具有以下内容: Assert.assertEquals(Double expected, Double result); 这很好，然后我决定将其
c++ - 错误 : cannot convert ‘double*’ to ‘double’ for argument ‘1’ and error: invalid types ‘double[double]’ for array subscript
我正在尝试引入部分数据文件来填充数组，用户尝试了三次输入正确的数据文件名。我一再遇到这些错误。我知道像 arr 这样的数组只是一个指向内存块的指针。 #include #include #incl
c++ - 无法将参数 'double' 的 'double*' 转换为 '1' 到 'void Swap(double*, double*)'
我正在尝试完成复习题(为即将到来的编程决赛)，但是，我无法解决这个问题，因为我不断收到错误(标题)。正如预期的那样，我将发布问题和我尝试的解决方案。问题: 给定以下函数定义:void swap(do
java - Double.MIN_VALUE 和 Double.MAX_VALUE 之间的随机 double ？
任何人都知道如何实现这一目标。我已经尝试了通常的公式，但我只得到正数 Double.NEGATIVE_INFINITY) return d; } } 这将以相同的概率

首页

博学

6Ren·AI

商城

c++ - 英特尔 AVX : 256-bits version of dot product for double precision floating point variables