c++ - AltiVec vec_msum 相当于浮点值-6ren

c++ - AltiVec vec_msum 相当于浮点值

转载作者：搜寻专家更新时间：2023-10-31 01:58:13

25

4

是否有人知道针对浮点值 vector 实现 vec_msum 功能的方法？

我是 SIMD 的新手，虽然我认为我开始理解它了 - 仍然有一些困惑。

我的最终目标是重写函数“convolve_altivec”(在 this 问题的已接受答案中找到)，使其接受输入参数作为浮点值，而不是短值。

也就是原型(prototype)应该是

float convolve_altivec(const float *a, const float *b, int n)

我正在尝试匹配以下原始未优化函数提供的功能:

float convolve(const float *a, const float *b, int n)
{
    float out = 0.f;
    while (n --)
        out += (*(a ++)) * (*(b ++));
    return out;
}

我最初的努力是尝试将同一功能的现有 SSE 版本移植到 altivec 指令。

最佳答案

对于 float 版本，您需要 vec_madd。

这是我为回答您之前的问题而发布的先前 16 位 int 版本和测试工具的浮点版本:

#include <assert.h>
#include <math.h>
#include <stdio.h>
#include <stdlib.h>
#include <altivec.h>

static float convolve_ref(const float *a, const float *b, int n)
{
    float sum = 0.0f;
    int i;

    for (i = 0; i < n; ++i)
    {
        sum += a[i] * b[i];
    }

    return sum;
}

static inline float convolve_altivec(const float *a, const float *b, int n)
{
    float sum = 0.0f;
    vector float vsum = { 0.0f, 0.0f, 0.0f, 0.0f };
    union {
        vector float v;
        float a[4];
    } usum;

    vector float *pa = (vector float *)a;
    vector float *pb = (vector float *)b;

    assert(((unsigned long)a & 15) == 0);
    assert(((unsigned long)b & 15) == 0);

    while (n >= 4)
    {
        vsum = vec_madd(*pa, *pb, vsum);
        pa++;
        pb++;
        n -= 4;
    }

    usum.v = vsum;

    sum = usum.a[0] + usum.a[1] + usum.a[2] + usum.a[3];

    a = (float *)pa;
    b = (float *)pb;

    while (n --)
    {
        sum += (*a++ * *b++);
    }

    return sum;
}

int main(void)
{
    const int n = 1002;

    vector float _a[n / 4 + 1];
    vector float _b[n / 4 + 1];

    float *a = (float *)_a;
    float *b = (float *)_b;

    float sum_ref, sum_test;

    int i;

    for (i = 0; i < n; ++i)
    {
        a[i] = (float)rand();
        b[i] = (float)rand();
    }

    sum_ref = convolve_ref(a, b, n);
    sum_test = convolve_altivec(a, b, n);

    printf("sum_ref = %g\n", sum_ref);
    printf("sum_test = %g\n", sum_test);

    printf("%s\n", fabsf((sum_ref - sum_test) / sum_ref) < 1.0e-6 ? "PASS" : "FAIL");

    return 0;
}

关于c++ - AltiVec vec_msum 相当于浮点值，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4384414/

25

4

0

文章推荐： c++ - GCC comp_except_specs 和异常处理/解析

文章推荐： c++ - Win32 : Prevent folder modification?

文章推荐： c++ - QMetaObject::activate 引用

文章推荐： c++ - C++ 中的动态 QT4 菜单

c++ - Altivec -- 常量变量的加载
使用 altivec 从 const 指针加载的最佳方法是什么？根据文档(和我的结果)，vec_ld 不将 const 指针作为参数: http://www-01.ibm.com/support/k
c - altivec 提取部分 vector ？
我正在尝试将一个 64 位值与一个 64 位值数组进行比较，比如 R_UINT64 FP；R_UINT64 输入[20000]; 如果数组中的任何元素与 FP 的值匹配，则返回 true。我必须遍历
c++ - AltiVec vec_msum 相当于浮点值
是否有人知道针对浮点值 vector 实现 vec_msum 功能的方法？我是 SIMD 的新手，虽然我认为我开始理解它了 - 仍然有一些困惑。我的最终目标是重写函数“convolve_altiv
c++ - Altivec:_mm_sad_epu8() 的类似物
我尝试移植一个 SSE 函数，它获得两个 8 位无符号整数数组的绝对差值。看起来像: uint64_t AbsDiffSum(const uint8_t * a, const uint8_t * b,
c - AltiVec 中的 mm_storel_epi64 等效吗？
我正在使用 AltiVec 编程接口(interface)开发一个项目。在一个地方，我想将 8 个字节从 vector 寄存器存储到缓冲区。在 SSE 中，我们有一个内在的 _mm_storel_
simd - 将 MMX/SSE 指令移植到 AltiVec
让我先介绍一下……我对 ASM 的经验极其有限，对 SIMD 的经验更甚。但碰巧我有以下 MMX/SSE 优化代码，我想将其移植到 AltiVec 指令以在 PPC/Cell 处理器上使用。这可能
c++ - IBM xlC 编译器与 Altivec 的循环优化
我只是在我们拥有的 power6 集群上试用 Altivec 扩展。我注意到当我在没有任何优化的情况下编译下面的代码时，我的加速比如我所料是 4。然而，当我用 -O3 标志再次编译它时，我设法获得了
c - 是否可以在 Altivec 中旋转 128 位值？
我正在尝试将一些 ARM NEON 代码移植到 AltiVec。我们的 NEON 代码有两个 LOAD，一个 ROT，一个 XOR 和一个 STORE，所以它看起来像是一个简单的测试用例。根据 IBM
c - AltiVec vec_ld() 是否仅适用于 16 字节对齐的变量？
在 gcc 4.1.2 中，vec_ld() 在 CPU MPC74XX 板上无法正常工作。 float temp[4]; __vector float Src; Src = (__vector fl
c++ - 如何使用 Altivec 将 vector 存储到内存中未对齐的位置
我从tutorial知道未对齐的加载和存储看起来像: //Load a vector from an unaligned location in memory __vector unsigned ch
c++ - Eclipse CDT 编辑器是否支持 altivec C++ 扩展？
Eclipse CDT C++ 编辑器是否有支持 Altivec C++ 语言扩展的方法，例如在使用 -maltivec 编译时在 GNU g++ 编译器中实现的那样？具体来说，是否可以停止将 ve
c - SIMD 与 Altivec : why is multiplying two vectors faster than adding two vectors?
我一直在使用 altivec 实现基本的数学运算，作为为即将进行的项目学习 simd 的一种方式。另外，作为查看其性能优势的一种方式，我跟踪了执行操作所需的时间，但我遇到了一些奇怪的情况。我做的第一

首页

博学

6Ren·AI

商城

c++ - AltiVec vec_msum 相当于浮点值