c++ - NEON 浮点乘法比预期慢-6ren

c++ - NEON 浮点乘法比预期慢

转载作者：塔克拉玛干更新时间：2023-11-03 00:21:12

26

4

我有两个 float 标签。我需要将第一个选项卡中的元素乘以第二个选项卡中的相应元素，并将结果存储在第三个选项卡中。

我想使用 NEON 来并行化 float 乘法:同时进行四个 float 乘法而不是一个。

我预计会有显着的加速，但我只实现了大约 20% 的执行时间减少。这是我的代码:

#include <stdlib.h>
#include <iostream>
#include <arm_neon.h>

const int n = 100; // table size

/* fill a tab with random floats */
void rand_tab(float *t) {
    for (int i = 0; i < n; i++)
        t[i] = (float)rand()/(float)RAND_MAX;
}

/* Multiply elements of two tabs and store results in third tab
 - STANDARD processing. */
void mul_tab_standard(float *t1, float *t2, float *tr) {
    for (int i = 0; i < n; i++)
         tr[i] = t1[i] * t2[i]; 
}

/* Multiply elements of two tabs and store results in third tab 
- NEON processing. */
void mul_tab_neon(float *t1, float *t2, float *tr) {
    for (int i = 0; i < n; i+=4)
        vst1q_f32(tr+i, vmulq_f32(vld1q_f32(t1+i), vld1q_f32(t2+i)));
}

int main() {
    float t1[n], t2[n], tr[n];

    /* fill tables with random values */
    srand(1); rand_tab(t1); rand_tab(t2);


    // I repeat table multiplication function 1000000 times for measuring purposes:
    for (int k=0; k < 1000000; k++)
        mul_tab_standard(t1, t2, tr);  // switch to next line for comparison:
    //mul_tab_neon(t1, t2, tr);  
    return 1;
}

我运行以下命令进行编译: g++ -mfpu=neon -ffast-math neon_test.cpp

我的 CPU:ARMv7 处理器版本 0 (v7l)

您有什么想法可以实现更显着的加速吗？

最佳答案

Cortex-A8 和 Cortex-A9 每个周期只能执行两次 SP FP 乘法，因此您最多可以将这些(最流行的)CPU 的性能提高一倍。实际上，ARM CPU 的 IPC 非常低，因此最好尽可能多地展开循环。如果您想要终极性能，请使用汇编语言编写:gcc 的 ARM 代码生成器在任何地方都不如 x86。

我还建议使用特定于 CPU 的优化选项:“-O3 -mcpu=cortex-a9 -march=armv7-a -mtune=cortex-a9 -mfpu=neon -mthumb”用于 Cortex-A9；对于 Cortex-A15、Cortex-A8 和 Cortex-A5，相应地替换 -mcpu=-mtune=cortex-a15/a8/a5。 gcc 没有针对 Qualcomm CPU 的优化，因此对于 Qualcomm Scorpion 使用 Cortex-A8 参数(并且展开比平时更多)，对于 Qualcomm Krait 尝试使用 Cortex-A15 参数(您需要最新版本的 gcc 支持它)。

关于c++ - NEON 浮点乘法比预期慢，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12420050/

26

4

0

文章推荐： ios - 通过 iOS api 命令创建 phonegap 应用程序时出错

文章推荐： java - 如何正确地按速度移动物体？

文章推荐： c++ - 共享库的 TX 文件扩展名？

文章推荐： android - Camera2 可以连续访问相机预览图像

java - 预期 & .class 预期 java
我对java有点陌生，所以如果我犯了一个简单的错误，请原谅我，但我不确定我哪里出错了，我收到的错误是“预期的.class，预期的标识符，而不是声明， ';'预期的。”我尝试了不同的方法，并从这些方法中
mocha - Mocha ， Chai ，未捕获的AssertionError:预期{}等于{} +预期-实际
This question already has answers here: chai test array equality doesn't work as expected （3个答案） 3年前
java - 此行有多个标记 - 标记 ")"上的语法错误，；预期 - token "("上的语法错误，{预期
我正在学习 Java(对不起，我的英语很差，这不是我的母语)，当我在 Eclipse (JavaSE-1.7) 中在我输入的每个“try”中执行“try-finally” block 时，会出现以下消
java - token 语法错误，预期 ConstructorHeaderName 和 token 语法错误 "("，< 预期
我收到两个错误，指出 token 上的语法错误，ConstructorHeaderName expected instead & token “(”上的语法错误，< expected 在线: mTM.
Java :Multiple markers at this line - Syntax error on token “)” , ;预期 - token “(” 上的语法错误，{ 预期
我找不到错误。 Eclipse 给我这个错误。每个 { } 都是匹配的。请帮忙。 Multiple markers at this line - Syntax error on token “)”,
java - JApplet 程序 : error: ')' expected, 错误 : illegal start of type, 预期，错误: ';' 预期
代码: import java.awt.*; import javax.swing.*; import java.awt.event.*; public class DoubleIt extends
python - 预期 ")"
我正在用 python(Vs 代码)编写代码，但出现此错误: Expected ")" Pylance 错误发生在:def main() 我试着运行我的 main 并将它打印到我的屏幕上。我用谷歌搜
reactjs - 异步函数意外标记，预期 (
我正在尝试按照 documentation 中的建议使用异步函数。但我收到此错误意外的 token ，预期 ( async function getMoviesFromApi() { try
java - Java非法启动类型)预期
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
java - ActionListener编译错误-;预期
Closed. This question does not meet Stack Overflow guidelines。它当前不接受答案。想改善这个问题吗？更新问题，以便将其作为on-topic
java - 第21行显示;预期
第一行包含一个表示数组长度的整数p。第二行包含用空格分隔的整数，这些整数描述数组中的每个元素。第三行打印一个整数，指示负数组的数量。 package asgn3; import java.util.*
Java 表达式语言错误 ";"预期
好的，我是初学者，我必须修复此 java 表达式语言代码才能在我的系统 (Windchill) 中工作，但看起来我在语法中遗漏了一些内容: LWCNormalizedObject lwc =
java - 预期 )，表达式的非法开始
我无法编译我的程序! 我想我缺少一个花括号，但我怎么也看不出在哪里! import javax.swing.*; import java.awt.*;
预期 jQuery 选择器
我的 jQuery 代码有问题，我的 Firebug 向我发出警告:需要选择器。这是代码: $("img[id$='_tick']").each(function() { $(this).c
c++ - 预期 { 在析构函数之前
我的新类(class) Fountainofyouth 遇到了问题。尝试构建整个项目后，调试器显示 warning: extended initializer lists only available
c++ - 预期 { 在输入结束时
我已经从 Java 转向 CPP，并且正在努力围绕构造构造函数链进行思考，我认为这是我的问题的根源。我的头文件如下: public: GuidedTour(); GuidedTour(string
javascript - jsLint 预期 {
鉴于以下 for(var i=0; i< data.cats.length; i++) list += buildCategories(data.cats[i]); jsLint 告诉我 Expect
json - 类型不正确。预期 "object"
我有这个 json，但 Visual Studio Code 在标题中给了我警告。 [ { "title": "Book A", "imageUrl": "https:
c++ - 预期 move_assignment 被删除
我正在尝试编写一个有条件地禁用四个特殊成员函数(复制构造、移动构造、复制赋值和移动赋值)的包装类，下面是我用于测试目的的快速草稿: enum class special_member : uint8_
F#:预期 'in' 或其他标记错误
所以我用 F# 编写了一个非常简单的程序，它应该对 1000 以下的所有 3 和 5 的倍数求和: [1..999] |> List.filter (fun x -> x % 3 = 0 || x %

首页

博学

6Ren·AI

商城

c++ - NEON 浮点乘法比预期慢